論文の概要: An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing
- arxiv url: http://arxiv.org/abs/2403.16854v1
- Date: Mon, 25 Mar 2024 15:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:44:21.849464
- Title: An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing
- Title(参考訳): 複数の専門家のLLMをジェネラリストとして、エキスパートのToken Routingを通じてシンジケートする
- Authors: Ziwei Chai, Guoyin Wang, Jing Su, Tianjie Zhang, Xuanwen Huang, Xuwu Wang, Jingjing Xu, Jianbo Yuan, Hongxia Yang, Fei Wu, Yang Yang,
- Abstract要約: Expert-Token-Routing は、メタ LLM の語彙内の特別な専門家トークンとして、専門家 LLM を表現している。
既存の命令データセットから専門家のLSMの暗黙の専門知識を学ぶのをサポートする。
また、ユーザの視点から詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
- 参考スコア(独自算出の注目度): 55.25224913110965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Expert-Token-Routing, a unified generalist framework that facilitates seamless integration of multiple expert LLMs. Our framework represents expert LLMs as special expert tokens within the vocabulary of a meta LLM. The meta LLM can route to an expert LLM like generating new tokens. Expert-Token-Routing not only supports learning the implicit expertise of expert LLMs from existing instruction dataset but also allows for dynamic extension of new expert LLMs in a plug-and-play manner. It also conceals the detailed collaboration process from the user's perspective, facilitating interaction as though it were a singular LLM. Our framework outperforms various existing multi-LLM collaboration paradigms across benchmarks that incorporate six diverse expert domains, demonstrating effectiveness and robustness in building generalist LLM system via synergizing multiple expert LLMs.
- Abstract(参考訳): 本稿では,複数の専門家LLMのシームレスな統合を支援する汎用フレームワークであるExpert-Token-Routingを紹介する。
我々のフレームワークは,メタLLMの語彙内の特別な専門家トークンとして,専門家LLMを表現している。
メタLSMは、新しいトークンを生成するように、専門家のLSMにルーティングすることができる。
Expert-Token-Routingは、既存の命令データセットから専門家のLLMの暗黙の専門知識を学ぶことをサポートするだけでなく、プラグイン・アンド・プレイで新しい専門家のLLMを動的に拡張することを可能にする。
また、ユーザの視点からは詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
本フレームワークは,6つの異なる専門家ドメインを組み込んだベンチマークにおいて,複数の専門家LLMを相乗化して汎用LLMシステムを構築する上での有効性と堅牢性を示すため,既存の複数LLMコラボレーションパラダイムよりも優れていた。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文 参考訳(メタデータ) (2024-02-12T19:49:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。