論文の概要: Wait, Wait, Wait... Why Do Reasoning Models Loop?
- arxiv url: http://arxiv.org/abs/2512.12895v1
- Date: Mon, 15 Dec 2025 00:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.486384
- Title: Wait, Wait, Wait... Why Do Reasoning Models Loop?
- Title(参考訳): 待ち、待ち、待ち...なぜリアクションモデルがループするのか?
- Authors: Charilaos Pipis, Shivam Garg, Vasilis Kontonis, Vaishnavi Shrivastava, Akshay Krishnamurthy, Dimitris Papailiopoulos,
- Abstract要約: 推論モデルは、しばしばループし、同じテキストを低温または強欲な復号で繰り返します。
開理モデルでは、ループは低温では一般的である。
このことは、トレーニング分布と学習モデルのミスマッチを指し、学習におけるエラーと呼ぶ。
- 参考スコア(独自算出の注目度): 38.291893062636035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning models (e.g., DeepSeek-R1) generate long chains of thought to solve harder problems, but they often loop, repeating the same text at low temperatures or with greedy decoding. We study why this happens and what role temperature plays. With open reasoning models, we find that looping is common at low temperature. Larger models tend to loop less, and distilled students loop significantly even when their teachers rarely do. This points to mismatches between the training distribution and the learned model, which we refer to as errors in learning, as a key cause. To understand how such errors cause loops, we introduce a synthetic graph reasoning task and demonstrate two mechanisms. First, risk aversion caused by hardness of learning: when the correct progress-making action is hard to learn but an easy cyclic action is available, the model puts relatively more probability on the cyclic action and gets stuck. Second, even when there is no hardness, Transformers show an inductive bias toward temporally correlated errors, so the same few actions keep being chosen and loops appear. Higher temperature reduces looping by promoting exploration, but it does not fix the errors in learning, so generations remain much longer than necessary at high temperature; in this sense, temperature is a stopgap rather than a holistic solution. We end with a discussion of training-time interventions aimed at directly reducing errors in learning.
- Abstract(参考訳): 推論モデル(例:DeepSeek-R1)は、難しい問題を解くための長いチェーンを生成するが、それらはしばしばループし、低温または強欲な復号で同じテキストを繰り返す。
この現象がなぜ起こるのか、温度がどのような役割を果たすのかを研究します。
開理モデルでは、ループは低温では一般的である。
より大型のモデルはよりループが少なくなり、教師がほとんどしない場合でも蒸留された学生は著しくループする。
このことは、トレーニング分布と学習モデルのミスマッチを、私たちが学習におけるエラーと呼んでいるもので、それが重要な原因であることを示している。
このようなエラーがループの原因となるのかを理解するため、合成グラフ推論タスクを導入し、2つのメカニズムを実証する。
まず、学習の困難によって引き起こされるリスク回避:正しい進歩的行動が学習し難いが、簡単な循環的行動が利用できる場合、モデルは循環的行動に比較的高い確率を与え、立ち往生する。
第二に、困難がなくても、トランスフォーマーは時間的に相関したエラーに対して帰納的バイアスを示すため、同じ少数のアクションが選択され、ループが現れる。
高温は探索を促進することでループを減少させるが、学習の誤りを修正しないため、世代は高温で必要以上に長く保たれる。
学習におけるエラーの直接低減を目的とした,トレーニング時間の介入に関する議論に終止符を打つ。
関連論文リスト
- Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control [24.901172157291096]
オープンループにおける行動列の予測と,専門家による実証実験の探索的拡張について検討した。
本研究は,制御理論的安定性をこれらの介入の利点の根底にある重要なメカニズムとして同定した。
理論面では、制御理論レンズが複合誤差の発生に関する詳細な知見を提供することを示した。
論文 参考訳(メタデータ) (2025-07-11T22:36:39Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。
自己批判型反復推論(SiGIR)を提案する。
SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文 参考訳(メタデータ) (2025-05-25T12:10:24Z) - Reasoning with Latent Thoughts: On the Power of Looped Transformers [52.84192961524481]
多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。
ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
論文 参考訳(メタデータ) (2025-02-24T18:49:05Z) - Trotter error time scaling separation via commutant decomposition [6.418044102466421]
我々は,可換分解の一般的な枠組みを導入することにより,既存の境界よりもトロッター誤差の推定を改善する。
この定式化は, 従来の結果を直接再現するだけでなく, 高次積公式の誤差推定にも有効であることを示す。
論文 参考訳(メタデータ) (2024-09-25T05:25:50Z) - Closed-loop deep learning: generating forward models with
back-propagation [0.0]
反射は単純なクローズドループ制御アプローチであり、エラーを最小化しようとするが、反応が遅すぎるため失敗する。
適応アルゴリズムは、この誤差を利用して予測的手がかりの助けを借りて前方モデルを学ぶことができる。
ディープラーニングをクローズドループシステムに組み込んで,その連続処理を保存することで,これを直接実現できることを示す。
論文 参考訳(メタデータ) (2020-01-09T13:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。