論文の概要: MoDEM: Mixture of Domain Expert Models
- arxiv url: http://arxiv.org/abs/2410.07490v1
- Date: Wed, 9 Oct 2024 23:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:46:37.231001
- Title: MoDEM: Mixture of Domain Expert Models
- Title(参考訳): MoDEM: ドメインエキスパートモデルの混合
- Authors: Toby Simonds, Kemal Kurniawan, Jey Han Lau,
- Abstract要約: 大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。
本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。
本研究は,本手法が同等の大きさの汎用モデルを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 23.846823652305027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach to enhancing the performance and efficiency of large language models (LLMs) by combining domain prompt routing with domain-specialized models. We introduce a system that utilizes a BERT-based router to direct incoming prompts to the most appropriate domain expert model. These expert models are specifically tuned for domains such as health, mathematics and science. Our research demonstrates that this approach can significantly outperform general-purpose models of comparable size, leading to a superior performance-to-cost ratio across various benchmarks. The implications of this study suggest a potential paradigm shift in LLM development and deployment. Rather than focusing solely on creating increasingly large, general-purpose models, the future of AI may lie in developing ecosystems of smaller, highly specialized models coupled with sophisticated routing systems. This approach could lead to more efficient resource utilization, reduced computational costs, and superior overall performance.
- Abstract(参考訳): 本稿では,ドメインプロンプトルーティングとドメイン特化モデルを組み合わせることで,大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。
本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。
これらの専門家モデルは、健康、数学、科学などの分野に特化している。
我々の研究は、このアプローチが同等の大きさの汎用モデルよりも大幅に優れており、様々なベンチマークで性能とコストの比が優れていることを実証している。
本研究の意義は, LLM の開発と展開におけるパラダイムシフトの可能性を示している。
AIの未来は、ますます大規模で汎用的なモデルを作ることに集中するのではなく、より小型で高度に専門化されたモデルと高度なルーティングシステムを組み合わせたエコシステムの開発にあるかもしれない。
このアプローチは、より効率的な資源利用、計算コストの削減、全体的なパフォーマンスの向上につながる可能性がある。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。
LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。
従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-01T07:05:29Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Exploring Domain Robust Lightweight Reward Models based on Router Mechanism [1.3624495460189863]
本稿では,ルータ機構に基づくドメイン固有方式で動作する小言語モデルの利用について検討する。
筆者らの3つのアプローチは,1)内部ルータとエキスパートをモジュール化した単一報酬モデルの構築,2)複数のドメイン固有モデルから適切な報酬モデルを選択するための外部ルータの利用,3)アダプタを用いた単一小言語モデルへの報酬モデルとルータアダプタのロードによるパラメータサイズ削減である。
論文 参考訳(メタデータ) (2024-07-24T17:25:12Z) - Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。
最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。
本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文 参考訳(メタデータ) (2024-04-22T16:33:42Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - AdaptDHM: Adaptive Distribution Hierarchical Model for Multi-Domain CTR
Prediction [4.299153274884263]
本稿では,適応分布階層モデル (Adaptive Distribution Hierarchical Model, AdaptDHM) という,エレガントで柔軟なマルチディストリビューション・モデリング手法を提案する。
本モデルでは, 予測精度が向上し, トレーニング期間中の時間コストは, 他のモデルに比べて50%以上低下する。
論文 参考訳(メタデータ) (2022-11-22T09:10:37Z) - Unified Modeling of Multi-Domain Multi-Device ASR Systems [13.61897259469694]
デバイス毎に異なるドメインモデルを統一モデルに統合する革新的なアプローチを提案する。
実験により,提案手法はドメイン毎に慎重に調整されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:07:22Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。