論文の概要: Tandem: Riding Together with Large and Small Language Models for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2604.23623v1
- Date: Sun, 26 Apr 2026 09:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.467346
- Title: Tandem: Riding Together with Large and Small Language Models for Efficient Reasoning
- Title(参考訳): Tandem: 効率的な推論のために,大規模かつ小規模な言語モデルと併用する
- Authors: Zichuan Fu, Xian Wu, Guojing Li, Yejing Wang, Yijun Chen, Zihao Zhao, Yixuan Luo, Hanyu Yan, Yefeng Zheng, Xiangyu Zhao,
- Abstract要約: 計算コストを大幅に削減した高品質な推論を実現するために,タンデムを提案する。
このフレームワークは、大小の言語モデル(LLMとSLM)を相乗化し、高品質な推論を実現する。
数学的推論とコード生成ベンチマークの実験により、タンデムは計算コストを約40%削減することを示した。
- 参考スコア(独自算出の注目度): 37.624319973066925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have catalyzed the rise of reasoning-intensive inference paradigms, where models perform explicit step-by-step reasoning before generating final answers. While such approaches improve answer quality and interpretability, they incur substantial computational overhead due to the prolonged generation sequences. In this paper, we propose Tandem, a novel collaborative framework that synergizes large and small language models (LLMs and SLMs) to achieve high-quality reasoning with significantly reduced computational cost. Specifically, the LLM serves as a strategic coordinator, efficiently generating a compact set of critical reasoning insights. These insights are then used to guide a smaller, more efficient SLM in executing the full reasoning process and delivering the final response. To balance efficiency and reliability, Tandem introduces a cost-aware termination mechanism that adaptively determines when sufficient reasoning guidance has been accumulated, enabling early stopping of the LLM's generation. Experiments on mathematical reasoning and code generation benchmarks demonstrate that Tandem reduces computational costs by approximately 40% compared to standalone LLM reasoning, while achieving superior or competitive performance. Furthermore, the sufficiency classifier trained on one domain transfers effectively to others without retraining. The code is available at: https://github.com/Applied-Machine-Learning-Lab/ACL2026_Tandem.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は推論集約的推論パラダイムの台頭を触媒し、モデルが最終的な答えを生成する前にステップバイステップの推論を行う。
このようなアプローチは、応答品質と解釈可能性を改善するが、長い生成シーケンスのため、かなりの計算オーバーヘッドを発生させる。
本稿では,大規模・小言語モデル(LLMとSLM)を相乗化して,計算コストを大幅に削減した高品質な推論を実現する,新しい協調フレームワークであるTandemを提案する。
具体的には、LSMは戦略コーディネータとして機能し、批判的推論の洞察のコンパクトなセットを効率的に生成する。
これらの洞察は、完全な推論プロセスを実行し、最終的な応答を提供する際に、より小さく、より効率的なSLMを導くために使用されます。
効率性と信頼性のバランスをとるため、Tandemは、十分な推論ガイダンスが蓄積されたときに適応的に決定するコスト対応の終了メカニズムを導入し、LCMの生成を早期に停止することを可能にする。
数学的推論とコード生成ベンチマークの実験では、タンデムはスタンドアロンのLCM推論と比較して計算コストを約40%削減し、優れた性能や競争性能を実現している。
さらに、あるドメインの転送で訓練された十分分類器は、再訓練することなく、効果的に他への転送を行うことができる。
コードは、https://github.com/Applied-Machine-Learning-Lab/ACL2026_Tandemで入手できる。
関連論文リスト
- Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces [2.0789230137053014]
テストタイムのスケーリングにより、複雑な問題から推論できる新しいLarge Language Models(LLM)が実現された。
2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
論文 参考訳(メタデータ) (2025-11-24T17:26:58Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Rational Metareasoning for Large Language Models [17.479428400594028]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。