論文の概要: Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say
- arxiv url: http://arxiv.org/abs/2509.21164v1
- Date: Thu, 25 Sep 2025 13:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.949174
- Title: Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say
- Title(参考訳): 思考の混合:専門家が考えるものを集約する学習
- Authors: Jacob Fein-Ashley, Dhruv Parikh, Rajgopal Kannan, Viktor Prasanna,
- Abstract要約: Mixture of Thoughts (MoT) は、グローバルなルーティング方式の下で、異種の専門家間の潜在レベル協調のための単純な方法である。
MoTは現在のルーティングと集約ベースのアベンジャーズをそれぞれ$+0.38%$と$+2.92%$で上回っている。
- 参考スコア(独自算出の注目度): 4.273730624882391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source Large Language Models (LLMs) increasingly specialize by domain (e.g., math, code, general reasoning), motivating systems that leverage complementary strengths across models. Prior multi-LLM approaches either (i) route a query to one or a few experts and generate independently, (ii) aggregate outputs from each model via costly multi-turn exchanges, or (iii) fuse weights into a single model-typically requiring architectural homogeneity. We introduce Mixture of Thoughts (MoT), a simple method for latent-level collaboration among heterogeneous experts under a global routing scheme. For each query, a lightweight router selects top-$K$ experts and designates a primary expert; uniformly placed interaction layers project hidden states into a shared latent space where the primary expert performs cross-attention over its active (selected) peers. Pre-trained experts remain frozen; only the router and the lightweight interaction layers are trained with a novel joint training objective that improves both the expert selection and inter-expert collaboration. Across five in-distribution (ID) and three out-of-distribution (OOD) benchmarks, MoT surpasses the current routing and aggregation-based state-of-the-art, Avengers, by $+0.38\%$ and $+2.92\%$, respectively. Further, MoT significantly outperforms the best-performing single model. It achieves this with single-pass inference, runtime comparable to routing baselines, and none of the overheads of iterative aggregation. MoT offers a simple latent-space mechanism for combining heterogeneous LLMs, a practical step toward broader multi-LLM collaboration. Our code is publicly available at https://github.com/jacobfa/mot.
- Abstract(参考訳): オープンソースのLarge Language Models(LLMs)は、ドメイン(例えば、数学、コード、一般的な推論)によって専門化され、モデル間の相補的な強みを活用したモチベーションシステムとなっている。
事前のマルチLLMアプローチ
i) クエリを1つまたは少数の専門家にルーティングし、独立して生成する。
二 費用のかかる多ターン交換による各モデルからの集計出力
(三)重みを1つのモデルに融合させ、典型的には構造的均質性を必要とする。
我々は、グローバルルーティング方式の下で、異種の専門家間での遅延レベル協調のための簡易な方法であるMixture of Thoughts (MoT)を紹介する。
各クエリに対して、軽量ルータは、上位$Kのエキスパートを選択し、プライマリエキスパートを指定する。
ルータとライトウェイトなインタラクション層だけが、専門家の選択と専門家間のコラボレーションを改善する新しい共同トレーニング目標でトレーニングされている。
5つのイン・ディストリビューション(ID)と3つのアウト・オブ・ディストリビューション(OOD)ベンチマークで、MoTは現在のルーティングと集約ベースのステート・オブ・ザ・アーティファクトであるAvengersをそれぞれ+0.38\%$と$+2.92\%$で上回っている。
さらに、MoTは最高のパフォーマンスのシングルモデルよりも大幅に優れています。
単一パスの推論、ルーティングベースラインに匹敵するランタイム、反復的なアグリゲーションのオーバーヘッドでこれを実現する。
MoTは、より広いマルチLLMコラボレーションに向けた実践的なステップである異種LSMを組み合わせるための単純な潜在空間メカニズムを提供する。
私たちのコードはhttps://github.com/jacobfa/mot.comで公開されています。
関連論文リスト
- Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-23T02:07:14Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists [34.018740224268576]
CoMiGSは、少ないデータでデバイス上でプライベートな学習を容易にする新しいアプローチである。
さまざまな専門家をローカライズしながら、ユーザ間でジェネラリストの専門家のバランスをとる。
トークン生成毎に,CoMiGSは一般的な知識とパーソナライズされた知識のバランスを効果的に表す。
論文 参考訳(メタデータ) (2024-09-20T22:34:37Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。