論文の概要: Answer Convergence as a Signal for Early Stopping in Reasoning
- arxiv url: http://arxiv.org/abs/2506.02536v1
- Date: Tue, 03 Jun 2025 07:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.392276
- Title: Answer Convergence as a Signal for Early Stopping in Reasoning
- Title(参考訳): 推論における早期停止信号としての解答収束
- Authors: Xin Liu, Lu Wang,
- Abstract要約: 大型言語モデル(LLM)における思考の連鎖(CoT)の促進
提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
- 参考スコア(独自算出の注目度): 7.60104447055814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting enhances reasoning in large language models (LLMs) but often leads to verbose and redundant outputs, thus increasing inference cost. We hypothesize that many reasoning steps are unnecessary for producing correct answers. To investigate this, we start with a systematic study to examine what is the minimum reasoning required for a model to reach a stable decision. We find that on math reasoning tasks like math, models typically converge to their final answers after 60\% of the reasoning steps, suggesting substantial redundancy in the remaining content. Based on these insights, we propose three inference-time strategies to improve efficiency: (1) early stopping via answer consistency, (2) boosting the probability of generating end-of-reasoning signals, and (3) a supervised method that learns when to stop based on internal activations. Experiments across five benchmarks and five open-weights LLMs show that our methods significantly reduce token usage with little or no accuracy drop. In particular, on NaturalQuestions, Answer Consistency reduces tokens by over 40\% while further improving accuracy. Our work underscores the importance of cost-effective reasoning methods that operate at inference time, offering practical benefits for real-world applications.
- Abstract(参考訳): チェーン・オブ・シント(CoT)は、大きな言語モデル(LLM)の推論を促進するが、しばしば冗長な出力と冗長な出力をもたらし、推論コストが増大する。
正しい答えを生み出すには、多くの推論ステップが不要である、という仮説を立てる。
そこで本研究では,モデルが安定的な決定を下すために必要な最小の理由を,まず体系的な研究から検討する。
数学のような数学推論タスクにおいて、モデルは通常、推論ステップの60%の後に最終回答に収束し、残りの内容にかなりの冗長性があることが示唆される。
これらの知見に基づいて,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法の3つの推論時間戦略を提案する。
5つのベンチマークと5つのオープンウェイト LLM 実験により、我々の手法はトークン使用率をほとんど、あるいは全く正確に低下させることなく大幅に削減することを示した。
特にNaturalQuestionsでは、Answer Consistencyはトークンを40%以上削減し、精度をさらに向上する。
我々の研究は、実世界のアプリケーションに実用的な利益をもたらす、推論時に作用するコスト効率の高い推論手法の重要性を浮き彫りにしている。
関連論文リスト
- Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。