論文の概要: Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.12353v1
- Date: Sat, 14 Jun 2025 05:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.905893
- Title: Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models
- Title(参考訳): 大規模共振モデルにおける自己肯定反射の抑制による効率的な共振
- Authors: Kaiyuan Liu, Chen Shen, Zhanwei Zhang, Junjie Liu, Xiaosong Yuan, Jieping ye,
- Abstract要約: 自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
- 参考スコア(独自算出の注目度): 29.615519143908998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advances in large reasoning models have demonstrated remarkable performance, efficient reasoning remains critical due to the rapid growth of output length. Existing optimization approaches highlights a tendency toward "overthinking", yet lack fine-grained analysis. In this work, we focus on Self-Affirmation Reflections: redundant reflective steps that affirm prior content and often occurs after the already correct reasoning steps. Observations of both original and optimized reasoning models reveal pervasive self-affirmation reflections. Notably, these reflections sometimes lead to longer outputs in optimized models than their original counterparts. Through detailed analysis, we uncover an intriguing pattern: compared to other reflections, the leading words (i.e., the first word of sentences) in self-affirmation reflections exhibit a distinct probability bias. Motivated by this insight, we can locate self-affirmation reflections and conduct a train-free experiment demonstrating that suppressing self-affirmation reflections reduces output length without degrading accuracy across multiple models (R1-Distill-Models, QwQ-32B, and Qwen3-32B). Furthermore, we also improve current train-based method by explicitly suppressing such reflections. In our experiments, we achieve length compression of 18.7\% in train-free settings and 50.2\% in train-based settings for R1-Distill-Qwen-1.5B. Moreover, our improvements are simple yet practical and can be directly applied to existing inference frameworks, such as vLLM. We believe that our findings will provide community insights for achieving more precise length compression and step-level efficient reasoning.
- Abstract(参考訳): 大規模推論モデルの最近の進歩は顕著な性能を示しているが, 出力長の急激な増加により, 効率的な推論は依然として重要である。
既存の最適化アプローチは、"過度に考える"傾向を浮き彫りにしているが、きめ細かい分析を欠いている。
この研究では、自己確認の反映(Self-Affirmation Reflections)に焦点を当てます。
オリジナルの推論モデルと最適化された推論モデルの観察は、広範囲にわたる自己確認反射を明らかにする。
特に、これらのリフレクションは、元のリフレクションよりも最適化されたモデルでの出力が長くなることがある。
詳細な分析を通して、興味深いパターンを明らかにする:他の反射と比較して、自己確認反射における先頭の単語(すなわち、文章の最初の単語)は、異なる確率バイアスを示す。
この知見により、自己確認反射の発見と、自己確認反射の抑制が複数のモデル(R1-Distill-Models, QwQ-32B, Qwen3-32B)で精度を低下させることなく出力長を減少させることを示した。
さらに、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
実験では,R1-Distill-Qwen-1.5Bの列車フリー設定では18.7\%,R1-Distill-Qwen-1.5Bでは50.2\%の長さ圧縮を実現した。
さらに、我々の改善は単純だが実用的であり、vLLMのような既存の推論フレームワークに直接適用することができる。
我々は,より正確な長さ圧縮とステップレベルの効率的な推論を実現するために,コミュニティの洞察を提供すると信じている。
関連論文リスト
- From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
論文 参考訳(メタデータ) (2025-06-13T20:40:13Z) - Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection [60.75785864719726]
本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:03:05Z) - Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning [84.2749507577386]
MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模モデルから高品質な推論経路を抽出する。
Retro-Searchは、より良い、しかし短いトレースを見つけるための推論パスをふりかえりに修正する。
当社のアプローチでは,モデルが独自のRetro-Search-edトレースに基づいて微調整される自己改善と,弱いから強い改善の2つのユースケースを実現しています。
論文 参考訳(メタデータ) (2025-04-06T06:23:27Z) - Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time [17.3254565018168]
大規模言語モデル(LLM)は複雑な推論シナリオに悩まされることが多い。
LLM生成反射の精度と深さを向上するコントラスト反射合成パイプラインを導入する。
本稿では,言語強化学習パラダイムにおける2モデル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T15:41:41Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。