論文の概要: Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit
- arxiv url: http://arxiv.org/abs/2508.17627v1
- Date: Mon, 25 Aug 2025 03:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.614678
- Title: Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit
- Title(参考訳): スピンホイールを停止する - 初期の推論イグジットのためのマイニングパターンを通じてLLMを過小評価する
- Authors: Zihao Wei, Liang Pang, Jiahao Liu, Jingcheng Deng, Shicheng Xu, Zenghao Duan, Jingang Wang, Fei Sun, Xunliang Cai, Huawei Shen, Xueqi Cheng,
- Abstract要約: オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
- 参考スコア(独自算出の注目度): 114.83867400179354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) enhance complex reasoning tasks by scaling the individual thinking process. However, prior work shows that overthinking can degrade overall performance. Motivated by observed patterns in thinking length and content length, we categorize reasoning into three stages: insufficient exploration stage, compensatory reasoning stage, and reasoning convergence stage. Typically, LLMs produce correct answers in the compensatory reasoning stage, whereas reasoning convergence often triggers overthinking, causing increased resource usage or even infinite loops. Therefore, mitigating overthinking hinges on detecting the end of the compensatory reasoning stage, defined as the Reasoning Completion Point (RCP). RCP typically appears at the end of the first complete reasoning cycle and can be identified by querying the LLM sentence by sentence or monitoring the probability of an end-of-thinking token (e.g., \texttt{</think>}), though these methods lack an efficient and precise balance. To improve this, we mine more sensitive and consistent RCP patterns and develop a lightweight thresholding strategy based on heuristic rules. Experimental evaluations on benchmarks (AIME24, AIME25, GPQA-D) demonstrate that the proposed method reduces token consumption while preserving or enhancing reasoning accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、個々の思考プロセスをスケールすることで複雑な推論タスクを強化する。
しかしながら、以前の研究は、過度に考えれば全体的なパフォーマンスが低下することを示している。
本研究は, 思考長と内容長の観察パターンにより, 探索段階の不足, 補足的推論段階, 推論収束段階の3段階に分類した。
通常、LCMは補償推論段階で正しい答えを生成するが、推論収束は過度に考え直し、資源使用量の増加や無限ループさえも引き起こす。
したがって、補償推論段階の終端を検出するため、過剰に考えるヒンジを緩和し、Reasoning Completion Point (RCP) と定義する。
RCPは典型的には、最初の完全推論サイクルの終わりに現れ、LLM文を文でクエリしたり、終末トークン(eg , \texttt{</think>})の確率を監視することで識別できるが、これらの手法は効率的かつ正確なバランスを欠いている。
これを改善するために、より敏感で一貫したRCPパターンを抽出し、ヒューリスティックなルールに基づいた軽量なしきい値設定戦略を開発する。
ベンチマーク実験 (AIME24, AIME25, GPQA-D) により, 提案手法は, 推論精度を保ちつつ, トークン消費を減少させることを示した。
関連論文リスト
- Think in Blocks: Adaptive Reasoning from Direct Response to Deep Reasoning [3.773711855945839]
大型言語モデル (LLM) とチェーン・オブ・シントは,タスク範囲の増大に対して高いパフォーマンスを示している。
LLMはタスクの複雑さに基づいて推論プロセスの長さを動的に調整できますか?
本稿では,ゼロから深い推論への適応的推論を可能にするThink in Blocksフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:32:19Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文 参考訳(メタデータ) (2025-06-03T03:31:30Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary? [60.725923225442095]
我々は、推論に基づくポイントワイドリランカ(ReasonRR)と、同じ訓練条件下での標準、非推論ポイントワイドリランカ(StandardRR)を比較した。
ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることがわかった。
論文 参考訳(メタデータ) (2025-05-22T16:41:37Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。