論文の概要: An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing
- arxiv url: http://arxiv.org/abs/2403.16854v3
- Date: Tue, 11 Jun 2024 15:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 22:03:14.338940
- Title: An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing
- Title(参考訳): 複数の専門家のLLMをジェネラリストとして、エキスパートのToken Routingを通じてシンジケートする
- Authors: Ziwei Chai, Guoyin Wang, Jing Su, Tianjie Zhang, Xuanwen Huang, Xuwu Wang, Jingjing Xu, Jianbo Yuan, Hongxia Yang, Fei Wu, Yang Yang,
- Abstract要約: Expert-Token-Routing は、メタ LLM の語彙内の特別な専門家トークンとして、専門家 LLM を表現している。
既存の命令データセットから専門家のLSMの暗黙の専門知識を学ぶのをサポートする。
また、ユーザの視点から詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
- 参考スコア(独自算出の注目度): 55.25224913110965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Expert-Token-Routing, a unified generalist framework that facilitates seamless integration of multiple expert LLMs. Our framework represents expert LLMs as special expert tokens within the vocabulary of a meta LLM. The meta LLM can route to an expert LLM like generating new tokens. Expert-Token-Routing not only supports learning the implicit expertise of expert LLMs from existing instruction dataset but also allows for dynamic extension of new expert LLMs in a plug-and-play manner. It also conceals the detailed collaboration process from the user's perspective, facilitating interaction as though it were a singular LLM. Our framework outperforms various existing multi-LLM collaboration paradigms across benchmarks that incorporate six diverse expert domains, demonstrating effectiveness and robustness in building generalist LLM system via synergizing multiple expert LLMs.
- Abstract(参考訳): 本稿では,複数の専門家LLMのシームレスな統合を支援する汎用フレームワークであるExpert-Token-Routingを紹介する。
我々のフレームワークは,メタLLMの語彙内の特別な専門家トークンとして,専門家LLMを表現している。
メタLSMは、新しいトークンを生成するように、専門家のLSMにルーティングすることができる。
Expert-Token-Routingは、既存の命令データセットから専門家のLLMの暗黙の専門知識を学ぶことをサポートするだけでなく、プラグイン・アンド・プレイで新しい専門家のLLMを動的に拡張することを可能にする。
また、ユーザの視点からは詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
本フレームワークは,6つの異なる専門家ドメインを組み込んだベンチマークにおいて,複数の専門家LLMを相乗化して汎用LLMシステムを構築する上での有効性と堅牢性を示すため,既存の複数LLMコラボレーションパラダイムよりも優れていた。
関連論文リスト
- CCoE: A Compact LLM with Collaboration of Experts [0.6144680854063939]
我々は、強力なドメインエキスパートを簡単に結合して大きな言語モデル(LLM)に融合するフレームワークを提案する。
コード、法、テキストから数学、医学の分野の専門家5人から始めます。その結果、私たちのCCoEフレームワークは、異なるドメインのオリジナルベースモデルにおいて、トレーニングのリソースが少ないだけでなく、推論も簡単に、効率的に10%-20%パフォーマンスを向上できます。
論文 参考訳(メタデータ) (2024-07-16T13:03:58Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
我々の発見は、モジュール化と、効率的でスケーラブルで適応可能なシステムを実現するための自己改善の可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications [0.0]
大規模言語モデル(LLM)が最近広く採用されている。自律エージェントやソフトウェア工学のツールとしての利用について調査している。
一方、LLMの統合されたアプリケーションは、LLMを利用してタスクを実行するソフトウェアシステムである。
本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2024-06-13T21:32:56Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends [30.774685501251817]
一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
論文 参考訳(メタデータ) (2023-11-17T07:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。