論文の概要: Slm-mux: Orchestrating small language models for reasoning
- arxiv url: http://arxiv.org/abs/2510.05077v1
- Date: Mon, 06 Oct 2025 17:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.035308
- Title: Slm-mux: Orchestrating small language models for reasoning
- Title(参考訳): Slm-mux: 推論のための小さな言語モデルのオーケストレーション
- Authors: Chenyu Wang, Zishen Wan, Hao Kang, Emma Chen, Zhiqiang Xie, Tushar Krishna, Vijay Janapa Reddi, Yilun Du,
- Abstract要約: 小型言語モデル(SLM)のオーケストレーションのための3段階的アプローチを提案する。
まず,複数のSLMを効果的にコーディネートするマルチモデルアーキテクチャであるSLM-MUXを紹介する。
SLM-MUXはわずか2つのSLMSでQwen 2.5 72BをGPQAとGSM8Kで上回り、MATHでのパフォーマンスに匹敵する。
- 参考スコア(独自算出の注目度): 52.461958665375896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of language models, the number of small language models (SLMs) has grown significantly. Although they do not achieve state-of-the-art accuracy, they are more efficient and often excel at specific tasks. This raises a natural question: can multiple SLMs be orchestrated into a system where each contributes effectively, achieving higher accuracy than any individual model? Existing orchestration methods have primarily targeted frontier models (e.g., GPT-4) and perform suboptimally when applied to SLMs. To address this gap, we propose a three-stage approach for orchestrating SLMs. First, we introduce SLM-MUX, a multi-model architecture that effectively coordinates multiple SLMs. Building on this, we develop two optimization strategies: (i) a model selection search that identifies the most complementary SLMs from a given pool, and (ii) test-time scaling tailored to SLM-MUX. Our approach delivers strong results: Compared to existing orchestration methods, our approach achieves up to 13.4% improvement on MATH, 8.8% on GPQA, and 7.0% on GSM8K. With just two SLMS, SLM-MUX outperforms Qwen 2.5 72B on GPQA and GSM8K, and matches its performance on MATH. We further provide theoretical analyses to substantiate the advantages of our method. In summary, we demonstrate that SLMs can be effectively orchestrated into more accurate and efficient systems through the proposed approach.
- Abstract(参考訳): 言語モデルの急速な発展に伴い、小言語モデル(SLM)の数は大幅に増加した。
最先端の精度は達成していないが、より効率的で、特定のタスクに優れることが多い。
複数のSLMを、個々のモデルよりも高い精度で、効果的に貢献するシステムに編成できるだろうか?
既存のオーケストレーション手法は、主にフロンティアモデル(例えば、GPT-4)をターゲットにしており、SLMに適用した場合、準最適に実行する。
このギャップに対処するため、我々はSLMのオーケストレーションのための3段階のアプローチを提案する。
まず,複数のSLMを効果的にコーディネートするマルチモデルアーキテクチャであるSLM-MUXを紹介する。
これに基づいて、私たちは2つの最適化戦略を開発します。
一 所定のプールから最も相補的なSLMを特定するモデル選択検索、及び
(ii)SLM-MUXに適したテスト時間スケーリング。
既存のオーケストレーション手法と比較して,MATHが最大13.4%,GPQAが8.8%,GSM8Kが7.0%向上しています。
SLM-MUXはわずか2つのSLMSでQwen 2.5 72BをGPQAとGSM8Kで上回り、MATHでのパフォーマンスに匹敵する。
さらに,本手法の利点を裏付ける理論的解析を行う。
まとめると、提案手法により、SLMをより正確で効率的なシステムに効果的に編成できることを実証する。
関連論文リスト
- MetaLLMix : An XAI Aided LLM-Meta-learning Based Approach for Hyper-parameters Optimization [0.0]
メタ学習,説明可能なAI,効率的なLLM推論を組み合わせたフレームワークであるMetaLLMiXを提案する。
また,MetaLLMiXは,計算コストを大幅に削減しつつ,従来のHPO法と競合し,優れた性能を発揮することを示す。
ローカルデプロイメントは、従来のAPIベースのアプローチよりも優れており、8つのタスクのうち5つで最適な結果、レスポンスタイムの99.6-99.9%、データセット6つで最速のトレーニング時間(2.4-15.7倍高速)を達成しています。
論文 参考訳(メタデータ) (2025-09-11T12:06:34Z) - DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression [7.1654056866441245]
大規模言語モデル(LLM)は、一般的なタスクでは優れているが、ドメイン固有のタスクでは苦労し、特定のデータに対して微調整を必要とする。
この課題に対処するデータ・モデル圧縮フレームワーク(DaMoC)を導入します。
トレーニング時間に約20倍の時間を節約しながら,最適なLLMを選択することができることを示す。
論文 参考訳(メタデータ) (2025-09-01T08:06:49Z) - CTTS: Collective Test-Time Scaling [58.564620942591866]
テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity [7.945893812374361]
アンサンブルの成分LLM間の多様性と性能の相関を捉えるために,焦点の多様性指標を導入する。
我々は,N$ベースLLMのプールからトップkサブアンサンブルを選択するために,多様性に最適化されたアンサンブルプルーニングアルゴリズムを開発した。
我々のプルーニング法では、最高性能のLLMサブアンサンブルが$S$で、しばしば$N$よりもずっと小さいことを推奨している。
論文 参考訳(メタデータ) (2024-10-04T22:31:15Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - SLMRec: Distilling Large Language Models into Small for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。
最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。
LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文 参考訳(メタデータ) (2024-05-28T07:12:06Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。