論文の概要: Early Stopping Chain-of-thoughts in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14004v1
- Date: Wed, 17 Sep 2025 14:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.864515
- Title: Early Stopping Chain-of-thoughts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける初期停止連鎖
- Authors: Minjia Mao, Bowen Yin, Yu Zhu, Xiao Fang,
- Abstract要約: ES-CoTは、応答収束を検出することによってチェーン・オブ・シント生成を短縮する推論時間法である。
ES-CoTは、標準CoTに匹敵する精度を維持しながら、推論トークンの数を平均で約41%削減する。
- 参考スコア(独自算出の注目度): 12.243498785781087
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning large language models (LLMs) have demonstrated superior capacities in solving complicated problems by generating long chain-of-thoughts (CoT), but such a lengthy CoT incurs high inference costs. In this study, we introduce ES-CoT, an inference-time method that shortens CoT generation by detecting answer convergence and stopping early with minimal performance loss. At the end of each reasoning step, we prompt the LLM to output its current final answer, denoted as a step answer. We then track the run length of consecutive identical step answers as a measure of answer convergence. Once the run length exhibits a sharp increase and exceeds a minimum threshold, the generation is terminated. We provide both empirical and theoretical support for this heuristic: step answers steadily converge to the final answer, and large run-length jumps reliably mark this convergence. Experiments on five reasoning datasets across three LLMs show that ES-CoT reduces the number of inference tokens by about 41\% on average while maintaining accuracy comparable to standard CoT. Further, ES-CoT integrates seamlessly with self-consistency prompting and remains robust across hyperparameter choices, highlighting it as a practical and effective approach for efficient reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は、長いチェーン・オブ・シンクレット(CoT)を生成することで複雑な問題を解くのに優れた能力を示しているが、このような長いCoTは高い推論コストをもたらす。
本研究では,応答収束を検出し,性能損失を最小限に抑えて早期に停止することにより,CoT生成を短縮するES-CoTを提案する。
各推論ステップの最後に、ステップ回答として表される現在の最終回答をLCMに出力するよう促す。
次に、回答収束の尺度として、連続した同一ステップの回答の実行長を追跡する。
ラン長が急激な増加を示し、最低閾値を超えると、生成は終了する。
ステップ回答は最終回答に着実に収束し、大きなラン長ジャンプはこの収束を確実に示している。
3つのLCMにまたがる5つの推論データセットの実験では、ES-CoTは標準CoTに匹敵する精度を維持しながら、平均で41\%の推論トークン数を削減している。
さらに、ES-CoTは自己整合性の促進とシームレスに統合され、ハイパーパラメータの選択に対して堅牢であり、効率的な推論のための実用的で効果的なアプローチとして強調される。
関連論文リスト
- Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness [18.073777359647515]
解答の導出前のChain-of-Thought(CoT)は、大規模言語モデル(LLM)の推論能力を改善することができる。
しかし、生成したCoTの長さは、望ましい最終回答よりもはるかに長いため、さらなる復号コストが生じる。
本稿では、圧縮機がオリジナルの長いCoTを短いCoTに圧縮するCOT圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T11:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。