論文の概要: Learning to Route Among Specialized Experts for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2402.05859v2
- Date: Thu, 20 Jun 2024 20:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:58:24.476854
- Title: Learning to Route Among Specialized Experts for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のための専門専門家の道筋の学習
- Authors: Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel,
- Abstract要約: 我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
- 参考スコア(独自算出の注目度): 39.56470042680907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a widespread proliferation of "expert" language models that are specialized to a specific task or domain through parameter-efficient fine-tuning. How can we recycle large collections of expert language models to improve zero-shot generalization to unseen tasks? In this work, we propose Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE), which learns to route among specialized modules that were produced through parameter-efficient fine-tuning. Unlike past methods that learn to route among specialized models, PHATGOOSE explores the possibility that zero-shot generalization will be improved if different experts can be adaptively chosen for each token and at each layer in the model. Crucially, our method is post-hoc - it does not require simultaneous access to the datasets used to create the specialized models and only requires a modest amount of additional compute after each expert model is trained. In experiments covering a range of specialized model collections and zero-shot generalization benchmarks, we find that PHATGOOSE outperforms past methods for post-hoc routing and, in some cases, outperforms explicit multitask training (which requires simultaneous data access). To better understand the routing strategy learned by PHATGOOSE, we perform qualitative experiments to validate that PHATGOOSE's performance stems from its ability to make adaptive per-token and per-module expert choices. We release all of our code to support future work on improving zero-shot generalization by recycling specialized experts.
- Abstract(参考訳): 近年、パラメータ効率の良い微調整によって特定のタスクやドメインに特化される「エキスパート」言語モデルが広く普及している。
ゼロショットの一般化を改善するために、専門家言語モデルの大規模なコレクションをどうやって再利用できるのか?
本研究では,パラメータ効率のよい微調整により生成した特殊モジュール間の経路を学習するPATGOOSE(Post-Hoc Adaptive Tokenwise Gating Over a Ocean of Specialized Experts)を提案する。
特殊モデル間の経路を学習する過去の方法とは異なり、PHATGOOSEは、各トークンとモデルの各層で異なる専門家が適応的に選択できれば、ゼロショットの一般化が改善される可能性を探っている。
重要なことに、我々の手法はポストホックであり、特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算を必要とする。
特殊モデル収集とゼロショット一般化ベンチマークを対象とする実験では、PHATGOOSEはポストホックルーティングの過去の手法より優れており、場合によっては明示的なマルチタスクトレーニング(同時データアクセスを必要とする)よりも優れていた。
PHATGOOSEが学習したルーティング戦略をよりよく理解するために,PHATGOOSEの性能が適応的かつモジュールごとのエキスパート選択に起因していることを示す定性的な実験を行った。
専門知識のリサイクルによるゼロショット一般化の改善に向けた今後の取り組みを支援するため,全コードをリリースする。
関連論文リスト
- Divide and not forget: Ensemble of selectively trained experts in Continual Learning [0.2886273197127056]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文 参考訳(メタデータ) (2024-01-18T18:25:29Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。
我々の方法は差別的タスクと生成的タスクの両方に当てはまる。
テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2023-10-02T18:31:35Z) - Self-Specialization: Uncovering Latent Expertise within Large Language Models [39.04128008742973]
近年の研究では、大規模言語モデルが一般的な指示に従うように整列された自己アライメントの有効性が実証されている。
我々はエキスパートドメイン専門化のための自己調整に焦点を当てる。
我々の自己特殊化モデルは、ベースモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T21:53:46Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Adaptive Network Combination for Single-Image Reflection Removal: A
Domain Generalization Perspective [68.37624784559728]
本稿では,ドメインの観点からSIRRモデルを学習し,課題に対処する。
各ソースセットに対して、特定のSIRRモデルは、関連するリフレクションタイプのドメインエキスパートとして機能するように訓練される。
あるソースセットからのイメージに対して、RTAWは、一般化能力を改善するために、他のドメインエキスパートの専門的な重みだけを予測するように訓練する。
実験により、異なる最先端SIRRネットワーク上でのAdaNECの性能向上が示された。
論文 参考訳(メタデータ) (2022-04-04T14:06:11Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。