論文の概要: GLUE: Gradient-free Learning to Unify Experts
- arxiv url: http://arxiv.org/abs/2512.22467v1
- Date: Sat, 27 Dec 2025 04:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.069185
- Title: GLUE: Gradient-free Learning to Unify Experts
- Title(参考訳): GLUE: エキスパートを統一するためのグラディエントな学習
- Authors: Jong-Ik Park, Shreyas Chaudhari, Srinivasa Pranav, Carlee Joe-Wong, José M. F. Moura,
- Abstract要約: 専門家を統一するためのグラディエントフリーラーニングであるGLUEを提案する。
ターゲットモデルを固定専門家の凸結合として初期化する。
勾配のない2点更新により、この組み合わせの混合係数を学習する。
- 参考スコア(独自算出の注目度): 29.66682434037689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many deployed systems (multilingual ASR, cross-hospital imaging, region-specific perception), multiple pretrained specialist models coexist. Yet, new target domains often require domain expansion: a generalized model that performs well beyond any single specialist's domain. Given such a new target domain, prior works seek a single strong initialization prior for the model parameters by first blending expert models to initialize a target model. However, heuristic blending -- using coefficients based on data size or proxy metrics -- often yields lower target-domain test accuracy, and learning the coefficients on the target loss typically requires computationally-expensive full backpropagation through the network. We propose GLUE, Gradient-free Learning To Unify Experts, which initializes the target model as a convex combination of fixed experts, learning the mixture coefficients of this combination via a gradient-free two-point (SPSA) update that requires only two forward passes per step. Across experiments on three datasets and three network architectures, GLUE produces a single prior that can be fine-tuned effectively to outperform baselines. GLUE improves test accuracy by up to 8.5% over data-size weighting and by up to 9.1% over proxy-metric selection. GLUE either outperforms backpropagation-based full-gradient mixing or matches its performance within 1.4%.
- Abstract(参考訳): 多くの配備システム(マルチリンガルASR、クロスホスピタルイメージング、地域特有の知覚)では、複数の事前訓練されたスペシャリストモデルが共存している。
しかし、新しいターゲットドメインはドメイン拡張を必要とすることが多い。
このような新たなターゲットドメインが与えられた場合、先行研究は、最初にエキスパートモデルをブレンドしてターゲットモデルを初期化することによって、モデルパラメータに先立って単一の強い初期化を求める。
しかし、データサイズやプロキシメトリクスに基づいた係数を使ったヒューリスティックなブレンディングは、しばしば目標ドメインのテスト精度を低くし、目標損失の係数を学習するには、通常、ネットワークを通して計算的な完全バックプロパゲーションが必要となる。
そこで我々は,目標モデルを固定専門家の凸結合として初期化するGLUE,グラディエントフリー学習 to Unify Expertsを提案し,この組み合わせの混合係数を,ステップ毎に2回の前進パスしか必要としない勾配フリー2点更新(SPSA)によって学習する。
3つのデータセットと3つのネットワークアーキテクチャに関する実験を通じて、GLUEは、ベースラインを上回るパフォーマンスを効果的に調整可能な、単一の事前処理を生成する。
GLUEはデータサイズの重み付けを最大8.5%、プロキシメトリックの選択を最大9.1%改善する。
GLUEは、バックプロパゲーションベースのフルグレートミキシングよりも優れているか、パフォーマンスが1.4%以内である。
関連論文リスト
- Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - You Only Train Once [11.97836331714694]
You Only Train Once (YOTO)は、損失選択と重み付けの後者の側面において、トレーニングを1ショットに制限することに貢献する。
複数の経験的損失を同時に最適化するために広く用いられている複合損失定式化の微分可能性を活用する。
YOTOは、未確認テストデータにおいて、最高のグリッド検索モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-06-04T18:04:58Z) - Towards Graph-Based Privacy-Preserving Federated Learning: ModelNet -- A ResNet-based Model Classification Dataset [0.3683202928838613]
本稿では,事前学習したResNet50モデルから抽出した埋め込みから構築した新しい画像分類データセットであるModelNetを紹介する。
モデルパラメータを保存するために、トレーニング済みのResNet50モデルで3つのバリエーションのクライアント固有のサブセットをトレーニングします。
マルチドメイン画像データに加えて、匿名化モデルパラメータにアクセスできるFLアルゴリズムを定義する新しい仮説を提案する。
論文 参考訳(メタデータ) (2025-05-31T08:53:16Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - Target-Aware Generative Augmentations for Single-Shot Adaptation [21.840653627684855]
我々は、ソースドメインからターゲットドメインへのモデル適応のための新しいアプローチを提案する。
SiSTAは、単一ショットターゲットを用いてソースドメインから生成モデルを微調整し、その後、合成ターゲットデータをキュレートするための新しいサンプリング戦略を用いる。
顔検出や多クラス物体認識において,SiSTAは既存のベースラインよりも大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:46:26Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。