Fugu-MT 論文翻訳(概要): Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart

論文の概要: Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart

arxiv url: http://arxiv.org/abs/2601.11940v1
Date: Sat, 17 Jan 2026 07:26:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.388231
Title: Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart
Title（参考訳）: 長鎖のトレープを考える:測定可能な研究とトレープ認識適応的再起動
Authors: Kang Chen, Fan Yu, Junjie Nian, Shihan Zhao, Zhuoka Feng, Zijun Yao, Heng Wang, Minshen Yu, Yixin Cao,
Abstract要約: TAAR(Trap-Aware Adaptive Restart)は,部分軌道から2つの信号を予測するための診断ポリシーをトレーニングするテスト時間制御フレームワークである。推測時、TAARは予測されたトラップセグメントの前に軌道を切断し、復号を適応的に再起動する。実験の結果,TAARはモデルパラメータを微調整することなく推論性能を向上させることがわかった。
参考スコア（独自算出の注目度）: 27.904791075662896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling test-time compute via Long Chain-of-Thought (Long-CoT) significantly enhances reasoning capabilities, yet extended generation does not guarantee correctness: after an early wrong commitment, models may keep elaborating a self-consistent but incorrect prefix. Through fine-grained trajectory analysis, we identify Thinking Traps, prefix-dominant deadlocks where later reflection, alternative attempts, or verification fails to revise the root error. On a curated subset of DAPO-MATH, 89\% of failures exhibit such traps. To solve this problem, we introduce TAAR (Trap-Aware Adaptive Restart), a test-time control framework that trains a diagnostic policy to predict two signals from partial trajectories: a trap index for where to truncate and an escape probability for whether and how strongly to intervene. At inference time, TAAR truncates the trajectory before the predicted trap segment and adaptively restarts decoding; for severely trapped cases, it applies stronger perturbations, including higher-temperature resampling and an optional structured reboot suffix. Experiments on challenging mathematical and scientific reasoning benchmarks (AIME24, AIME25, GPQA-Diamond, HMMT25, BRUMO25) show that TAAR improves reasoning performance without fine-tuning base model parameters.
Abstract（参考訳）: Long Chain-of-Thought (Long-CoT) によるテスト時間計算のスケーリングは推論能力を大幅に向上させるが、拡張された生成は正確性を保証しない。微粒な軌道解析により、後続のリフレクション、代替試行、検証がルートエラーの修正に失敗するプレフィックス優位なデッドロックであるThinking Trapsを同定する。 DAPO-MATHのキュレートされたサブセットでは、99%の障害がそのようなトラップを示す。この問題を解決するために、TAAR(Trap-Aware Adaptive Restart)は、部分軌道から2つの信号を予測するための診断ポリシーをトレーニングするテスト時制御フレームワークである。推測時には、TAARは予測トラップセグメントの前の軌道を切断し、デコードを適応的に再起動する。数学および科学的推論ベンチマーク(AIME24, AIME25, GPQA-Diamond, HMMT25, BRUMO25)の実験は、TAARが微調整ベースモデルパラメータを使わずに推論性能を改善することを示した。

関連論文リスト

Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering [5.427346259545067]
CoT(Chain-of- Thought)は、大規模言語モデルにおける推論機能のスケーリングの中心となっている。命令調整モデルがCoTを生成する前に解答を決定する場合が多いことを示す。
論文参考訳（メタデータ） (2026-03-02T04:33:55Z)
Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning [37.40951956513094]
大規模言語モデル(LLM)における推論は、しばしば、冗長な自己探索と検証を伴う非効率な長い連鎖トレースに悩まされる。過去の事例を利用して検索空間を制約し、試行錯誤を減らすという人間の推論パターンに着想を得て、先行インフォームド推論(PIR)を提案する。 PIRは、LEMの推論パラダイムを、徹底的な自己探索から、前例からの指導的学習に転換する。
論文参考訳（メタデータ） (2026-02-16T04:17:46Z)
Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文参考訳（メタデータ） (2026-02-13T02:13:45Z)
APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。本稿では,Anchor-based Process Reward (APR)を提案する。
論文参考訳（メタデータ） (2026-01-31T14:53:20Z)
PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文参考訳（メタデータ） (2026-01-08T07:38:46Z)
DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文参考訳（メタデータ） (2025-11-01T17:41:28Z)
ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。学習タスクを再編成し、慣性参照からの残留偏差を予測する。 NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文参考訳（メタデータ） (2025-10-09T17:59:36Z)
Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文参考訳（メタデータ） (2025-08-25T03:17:17Z)
ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。 CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文参考訳（メタデータ） (2025-08-07T11:26:40Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文参考訳（メタデータ） (2025-05-12T15:50:44Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。