論文の概要: When Less is Enough: Efficient Inference via Collaborative Reasoning
- arxiv url: http://arxiv.org/abs/2605.01111v1
- Date: Fri, 01 May 2026 21:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.589632
- Title: When Less is Enough: Efficient Inference via Collaborative Reasoning
- Title(参考訳): 不十分な場合:協調推論による効率的な推論
- Authors: Yilei Chen, Sharut Gupta, Yannis Paschalidis, Ayush Sekhari, Aldo Pacchiano,
- Abstract要約: DUETは、有能なモデルと軽量なモデルが協調してタスクを解決する、協調的な推論フレームワークである。
その結果、DUETは、大規模モデルのみを用いて、エンドツーエンドの推論よりもかなり低い推論コストで、強い推論性能を維持している。
- 参考スコア(独自算出の注目度): 39.24624228580671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we introduce DUET (Dual-model Efficient Two-stage inference), a collaborative inference framework in which a capable model and a lightweight model work together to solve a task. Relying on a single large model to perform end-to-end reasoning and prediction often incurs substantial inference cost. In contrast, DUET decomposes inference into two stages: the capable model produces a reasoning signal, and the lightweight model interprets this signal to generate the final answer, allowing reasoning-intensive computation to be handled by the capable model while non-reasoning-intensive components are delegated to the lightweight model without sacrificing task performance. To achieve this objective, we propose a length-penalized joint training objective that encourages the capable model to transmit only the information that is sufficient for the lightweight model to solve the task. As a result, DUET maintains strong reasoning performance with substantially lower inference cost than end-to-end inference using a large model alone, saving up to 60% of the large model's output tokens on challenging reasoning benchmarks, including AIME and GPQA.
- Abstract(参考訳): 本稿では,有能なモデルと軽量モデルが協調してタスクを解く,協調的推論フレームワークであるDUET(Dual-model Efficient Two-stage Inference)を紹介する。
エンド・ツー・エンドの推論と予測を行うために単一の大きなモデルを利用すると、かなりの推論コストが発生する。
対照的に、DUETは推論を2段階に分解する: 有理モデルが推論信号を生成し、軽量モデルは、この信号を解釈して最終回答を生成し、推論集約計算を有理モデルで処理し、非共振集約コンポーネントはタスク性能を犠牲にすることなく軽量モデルに委譲する。
そこで本研究では,この課題を解決するのに十分な情報のみを,有能なモデルに伝達させることを奨励する,長大な共同訓練目標を提案する。
その結果、DUETは大規模モデルだけでのエンド・ツー・エンド推論よりもかなり低い推論コストで強力な推論性能を維持し、AIMEやGPQAなどの挑戦的推論ベンチマークにおいて、大モデルの出力トークンの最大60%を節約した。
関連論文リスト
- GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts [10.808072653940263]
協調推論は、軽量モデルと大規模モデルの間の作業を選択的に割り当てることで、有望なソリューションを提供する。
ステップワイドなコラボレーションに関する新しい視点を提案する。推論ステップの難しさは,最初のトークンから推測できる。
Glimpは軽量なモデルを使用して、各推論ステップの最初のトークンのみを生成し、初期トークンエントロピーがしきい値を超えた場合にのみ、ステップをより大きなモデルにルーティングする。
論文 参考訳(メタデータ) (2026-01-08T16:58:07Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - Training Language Models to Reason Efficiently [12.689316164465472]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。