論文の概要: Learning to Route Among Specialized Experts for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2402.05859v2
- Date: Thu, 20 Jun 2024 20:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:58:24.476854
- Title: Learning to Route Among Specialized Experts for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のための専門専門家の道筋の学習
- Authors: Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel,
- Abstract要約: 我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
- 参考スコア(独自算出の注目度): 39.56470042680907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a widespread proliferation of "expert" language models that are specialized to a specific task or domain through parameter-efficient fine-tuning. How can we recycle large collections of expert language models to improve zero-shot generalization to unseen tasks? In this work, we propose Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE), which learns to route among specialized modules that were produced through parameter-efficient fine-tuning. Unlike past methods that learn to route among specialized models, PHATGOOSE explores the possibility that zero-shot generalization will be improved if different experts can be adaptively chosen for each token and at each layer in the model. Crucially, our method is post-hoc - it does not require simultaneous access to the datasets used to create the specialized models and only requires a modest amount of additional compute after each expert model is trained. In experiments covering a range of specialized model collections and zero-shot generalization benchmarks, we find that PHATGOOSE outperforms past methods for post-hoc routing and, in some cases, outperforms explicit multitask training (which requires simultaneous data access). To better understand the routing strategy learned by PHATGOOSE, we perform qualitative experiments to validate that PHATGOOSE's performance stems from its ability to make adaptive per-token and per-module expert choices. We release all of our code to support future work on improving zero-shot generalization by recycling specialized experts.
- Abstract(参考訳): 近年、パラメータ効率の良い微調整によって特定のタスクやドメインに特化される「エキスパート」言語モデルが広く普及している。
ゼロショットの一般化を改善するために、専門家言語モデルの大規模なコレクションをどうやって再利用できるのか?
本研究では,パラメータ効率のよい微調整により生成した特殊モジュール間の経路を学習するPATGOOSE(Post-Hoc Adaptive Tokenwise Gating Over a Ocean of Specialized Experts)を提案する。
特殊モデル間の経路を学習する過去の方法とは異なり、PHATGOOSEは、各トークンとモデルの各層で異なる専門家が適応的に選択できれば、ゼロショットの一般化が改善される可能性を探っている。
重要なことに、我々の手法はポストホックであり、特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算を必要とする。
特殊モデル収集とゼロショット一般化ベンチマークを対象とする実験では、PHATGOOSEはポストホックルーティングの過去の手法より優れており、場合によっては明示的なマルチタスクトレーニング(同時データアクセスを必要とする)よりも優れていた。
PHATGOOSEが学習したルーティング戦略をよりよく理解するために,PHATGOOSEの性能が適応的かつモジュールごとのエキスパート選択に起因していることを示す定性的な実験を行った。
専門知識のリサイクルによるゼロショット一般化の改善に向けた今後の取り組みを支援するため,全コードをリリースする。
関連論文リスト
- LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - RouterRetriever: Exploring the Benefits of Routing over Multiple Expert Embedding Models [58.987116118425995]
本稿では,複数のドメインの専門家を対象とする検索モデルであるReuterRetrieverを紹介する。
軽量で、追加のトレーニングなしでエキスパートの追加や削除が簡単にできる。
複数のドメイン固有の専門的な埋め込みモデルを使用することの利点を示す最初の研究である。
論文 参考訳(メタデータ) (2024-09-04T13:16:55Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models [36.172093066234794]
オープンな知識を持つ大規模言語モデルのタスク専門性を向上させるために,人手によるサンプル(Kショット)を少数導入する。
複数の専門家の間で個別のyet-complementaryな知識を最大限に活用するために、Mixix-of-expert (MoE)システムを構築している。
論文 参考訳(メタデータ) (2024-08-28T16:28:07Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Divide and not forget: Ensemble of selectively trained experts in Continual Learning [0.2886273197127056]
クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
論文 参考訳(メタデータ) (2024-01-18T18:25:29Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - Self-Specialization: Uncovering Latent Expertise within Large Language Models [39.04128008742973]
近年の研究では、大規模言語モデルが一般的な指示に従うように整列された自己アライメントの有効性が実証されている。
我々はエキスパートドメイン専門化のための自己調整に焦点を当てる。
我々の自己特殊化モデルは、ベースモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T21:53:46Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。