論文の概要: Learning to Route Among Specialized Experts for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2402.05859v1
- Date: Thu, 8 Feb 2024 17:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:50:20.139419
- Title: Learning to Route Among Specialized Experts for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のための専門知識者間の経路学習
- Authors: Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel
- Abstract要約: 我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
- 参考スコア(独自算出の注目度): 43.22159290758975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a widespread proliferation of "expert" language
models that are specialized to a specific task or domain through
parameter-efficient fine-tuning. How can we recycle large collections of expert
language models to improve zero-shot generalization to unseen tasks? In this
work, we propose Post-Hoc Adaptive Tokenwise Gating Over an Ocean of
Specialized Experts (PHATGOOSE), which learns to route among specialized
modules that were produced through parameter-efficient fine-tuning. Unlike past
methods that learn to route among specialized models, PHATGOOSE explores the
possibility that zero-shot generalization will be improved if different experts
can be adaptively chosen for each token and at each layer in the model.
Crucially, our method is post-hoc - it does not require simultaneous access to
the datasets used to create the specialized models and only requires a modest
amount of additional compute after each expert model is trained. In experiments
covering a range of specialized model collections and zero-shot generalization
benchmarks, we find that PHATGOOSE outperforms past methods for post-hoc
routing and, in some cases, outperforms explicit multitask training (which
requires simultaneous data access). To better understand the routing strategy
learned by PHATGOOSE, we perform qualitative experiments to validate that
PHATGOOSE's performance stems from its ability to make adaptive per-token and
per-module expert choices. We release all of our code to support future work on
improving zero-shot generalization by recycling specialized experts.
- Abstract(参考訳): 近年、パラメーター効率の良い微調整によって特定のタスクやドメインに特化した「専門家」言語モデルが広く普及している。
ゼロショットの一般化を改善するために、専門家言語モデルの大規模なコレクションをどうやって再利用できるのか?
本研究では,パラメータ効率のよい微調整により生成した特殊モジュール間の経路を学習するPATGOOSE(Post-Hoc Adaptive Tokenwise Gating Over a Ocean of Specialized Experts)を提案する。
特殊モデル間の経路を学習する過去の方法とは異なり、PHATGOOSEは、各トークンとモデルの各層で異なる専門家が適応的に選択できれば、ゼロショットの一般化が改善される可能性を探っている。
重要なことに、我々の手法はポストホックであり、特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算を必要とする。
特殊なモデルコレクションとゼロショット一般化ベンチマークをカバーする実験では、ファトグースがポストホックルーティングの過去のメソッドを上回り、場合によっては明示的なマルチタスクトレーニング(同時データアクセスを必要とする)を上回っていることが判明した。
PHATGOOSEが学習したルーティング戦略をよりよく理解するために,PHATGOOSEの性能が適応的かつモジュールごとのエキスパート選択に起因していることを示す定性的な実験を行った。
専門知識のリサイクルによるゼロショット一般化の改善に向けた今後の取り組みを支援するため,全コードをリリースする。
関連論文リスト
- AMEND: A Mixture of Experts Framework for Long-tailed Trajectory
Prediction [7.346307332191997]
軌道予測のためのモジュラーモデル非依存フレームワークを提案する。
各専門家は、データの特定の部分に関して、特別なスキルで訓練される。
予測のために,相対的信頼スコアを生成することで,最高の専門家を選択するルータネットワークを利用する。
論文 参考訳(メタデータ) (2024-02-13T02:43:41Z) - Divide and not forget: Ensemble of selectively trained experts in
Continual Learning [15.92212414572829]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文 参考訳(メタデータ) (2024-01-18T18:25:29Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Soft Merging of Experts with Adaptive Routing [31.783410114666413]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Adaptive Network Combination for Single-Image Reflection Removal: A
Domain Generalization Perspective [68.37624784559728]
本稿では,ドメインの観点からSIRRモデルを学習し,課題に対処する。
各ソースセットに対して、特定のSIRRモデルは、関連するリフレクションタイプのドメインエキスパートとして機能するように訓練される。
あるソースセットからのイメージに対して、RTAWは、一般化能力を改善するために、他のドメインエキスパートの専門的な重みだけを予測するように訓練する。
実験により、異なる最先端SIRRネットワーク上でのAdaNECの性能向上が示された。
論文 参考訳(メタデータ) (2022-04-04T14:06:11Z) - SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for
Unified Predictive Segments System [8.917697023052257]
統合述語セグメントシステムであるSuperConeについて述べる。
これは、各ユーザの異質なデジタルフットプリントを要約するフラットな概念表現の上に構築される。
様々な述語セグメントタスクにおいて、最先端のレコメンデーションとランキングアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2022-03-09T04:11:39Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。