論文の概要: Slm-mux: Orchestrating small language models for reasoning
- arxiv url: http://arxiv.org/abs/2510.05077v1
- Date: Mon, 06 Oct 2025 17:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.035308
- Title: Slm-mux: Orchestrating small language models for reasoning
- Title(参考訳): Slm-mux: 推論のための小さな言語モデルのオーケストレーション
- Authors: Chenyu Wang, Zishen Wan, Hao Kang, Emma Chen, Zhiqiang Xie, Tushar Krishna, Vijay Janapa Reddi, Yilun Du,
- Abstract要約: 小型言語モデル(SLM)のオーケストレーションのための3段階的アプローチを提案する。
まず,複数のSLMを効果的にコーディネートするマルチモデルアーキテクチャであるSLM-MUXを紹介する。
SLM-MUXはわずか2つのSLMSでQwen 2.5 72BをGPQAとGSM8Kで上回り、MATHでのパフォーマンスに匹敵する。
- 参考スコア(独自算出の注目度): 52.461958665375896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of language models, the number of small language models (SLMs) has grown significantly. Although they do not achieve state-of-the-art accuracy, they are more efficient and often excel at specific tasks. This raises a natural question: can multiple SLMs be orchestrated into a system where each contributes effectively, achieving higher accuracy than any individual model? Existing orchestration methods have primarily targeted frontier models (e.g., GPT-4) and perform suboptimally when applied to SLMs. To address this gap, we propose a three-stage approach for orchestrating SLMs. First, we introduce SLM-MUX, a multi-model architecture that effectively coordinates multiple SLMs. Building on this, we develop two optimization strategies: (i) a model selection search that identifies the most complementary SLMs from a given pool, and (ii) test-time scaling tailored to SLM-MUX. Our approach delivers strong results: Compared to existing orchestration methods, our approach achieves up to 13.4% improvement on MATH, 8.8% on GPQA, and 7.0% on GSM8K. With just two SLMS, SLM-MUX outperforms Qwen 2.5 72B on GPQA and GSM8K, and matches its performance on MATH. We further provide theoretical analyses to substantiate the advantages of our method. In summary, we demonstrate that SLMs can be effectively orchestrated into more accurate and efficient systems through the proposed approach.
- Abstract(参考訳): 言語モデルの急速な発展に伴い、小言語モデル(SLM)の数は大幅に増加した。
最先端の精度は達成していないが、より効率的で、特定のタスクに優れることが多い。
複数のSLMを、個々のモデルよりも高い精度で、効果的に貢献するシステムに編成できるだろうか?
既存のオーケストレーション手法は、主にフロンティアモデル(例えば、GPT-4)をターゲットにしており、SLMに適用した場合、準最適に実行する。
このギャップに対処するため、我々はSLMのオーケストレーションのための3段階のアプローチを提案する。
まず,複数のSLMを効果的にコーディネートするマルチモデルアーキテクチャであるSLM-MUXを紹介する。
これに基づいて、私たちは2つの最適化戦略を開発します。
一 所定のプールから最も相補的なSLMを特定するモデル選択検索、及び
(ii)SLM-MUXに適したテスト時間スケーリング。
既存のオーケストレーション手法と比較して,MATHが最大13.4%,GPQAが8.8%,GSM8Kが7.0%向上しています。
SLM-MUXはわずか2つのSLMSでQwen 2.5 72BをGPQAとGSM8Kで上回り、MATHでのパフォーマンスに匹敵する。
さらに,本手法の利点を裏付ける理論的解析を行う。
まとめると、提案手法により、SLMをより正確で効率的なシステムに効果的に編成できることを実証する。
関連論文リスト
- CTTS: Collective Test-Time Scaling [58.564620942591866]
テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - SLMRec: Distilling Large Language Models into Small for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。
最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。
LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文 参考訳(メタデータ) (2024-05-28T07:12:06Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。