論文の概要: Bench-CoE: a Framework for Collaboration of Experts from Benchmark
- arxiv url: http://arxiv.org/abs/2412.04167v1
- Date: Thu, 05 Dec 2024 14:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:05.625351
- Title: Bench-CoE: a Framework for Collaboration of Experts from Benchmark
- Title(参考訳): Bench-CoE: ベンチマークから専門家をコラボレーションするためのフレームワーク
- Authors: Yuanshuai Wang, Xingjian Zhang, Jinkun Zhao, Siwei Wen, Peilin Feng, Shuhao Liao, Lei Huang, Wenjun Wu,
- Abstract要約: 大規模言語モデル(LLM)は、知的システムを複数のタスクを処理するために駆動する重要な技術である。
本稿では,ベンチマーク評価を効果的に活用し,専門家コラボレーション(CoE)を可能にするBench-CoEフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.278928823352044
- License:
- Abstract: Large Language Models (LLMs) are key technologies driving intelligent systems to handle multiple tasks. To meet the demands of various tasks, an increasing number of LLMs-driven experts with diverse capabilities have been developed, accompanied by corresponding benchmarks to evaluate their performance. This paper proposes the Bench-CoE framework, which enables Collaboration of Experts (CoE) by effectively leveraging benchmark evaluations to achieve optimal performance across various tasks. Bench-CoE includes a set of expert models, a router for assigning tasks to corresponding experts, and a benchmark dataset for training the router. Moreover, we formulate Query-Level and Subject-Level approaches based on our framework, and analyze the merits and drawbacks of these two approaches. Finally, we conduct a series of experiments with vary data distributions on both language and multimodal tasks to validate that our proposed Bench-CoE outperforms any single model in terms of overall performance. We hope this method serves as a baseline for further research in this area. The code is available at \url{https://github.com/ZhangXJ199/Bench-CoE}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知的システムを複数のタスクを処理するために駆動する重要な技術である。
様々なタスクの要求を満たすため、様々な能力を持つLLMを駆動する専門家の数が増加し、それに対応するベンチマークが開発されている。
本稿では,ベンチマーク評価を効果的に活用し,様々なタスクにまたがる最適なパフォーマンスを実現することにより,専門家コラボレーション(CoE)を可能にするBench-CoEフレームワークを提案する。
Bench-CoEには、一連のエキスパートモデル、対応するエキスパートにタスクを割り当てるルータ、ルータをトレーニングするベンチマークデータセットが含まれている。
さらに,本フレームワークに基づく問合せレベルアプローチと主観レベルアプローチを定式化し,これらの2つのアプローチのメリットと欠点を分析する。
最後に,言語およびマルチモーダルタスクの異なるデータ分布を用いた一連の実験を行い,提案したBench-CoEが全体の性能においてどのモデルよりも優れていることを示す。
この手法がこの分野のさらなる研究のベースラインになることを願っている。
コードは \url{https://github.com/ZhangXJ199/Bench-CoE} で公開されている。
関連論文リスト
- Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。
このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。
我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions [29.130355774088205]
Hierarchical Mixture of Experts (HMoE)は、複雑な入力の処理とターゲットタスクのパフォーマンス向上に長けている。
理論的には、各専門家群に配向ゲーティング関数を適用することで、HMoEが堅牢な結果が得られることを証明している。
これには、大規模なマルチモーダルタスク、画像分類、潜時ドメイン発見および予測タスクが含まれます。
論文 参考訳(メタデータ) (2024-10-03T19:28:52Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文 参考訳(メタデータ) (2024-02-08T17:43:22Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of
Thought Prompting [23.607534241574346]
推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。
NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。
論文 参考訳(メタデータ) (2023-05-26T13:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。