論文の概要: Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty
- arxiv url: http://arxiv.org/abs/2602.12113v1
- Date: Thu, 12 Feb 2026 16:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.914929
- Title: Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty
- Title(参考訳): 不必要なリフレクションを止める:適応反射と長さ調整されたペナルティを併用した効率的なリゾニングのためのLEMの訓練
- Authors: Zewei Yu, Lirong Gao, Yuke Zhu, Bo Zheng, Sheng Guo, Haobo Wang, Junbo Zhao,
- Abstract要約: ARLCPは推論効率と解の精度のバランスをとるために設計された強化学習フレームワークである。
我々は,DeepSeek-R1-Distill-Qwen-1.5BモデルとDeepSeek-R1-Distill-Qwen-7Bモデルを用いて,5つの数学的推論ベンチマークの評価を行った。
- 参考スコア(独自算出の注目度): 42.57318973226598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex reasoning tasks by employing test-time scaling. However, they often generate over-long chains-of-thought that, driven by substantial reflections such as repetitive self-questioning and circular reasoning, lead to high token consumption, substantial computational overhead, and increased latency without improving accuracy, particularly in smaller models. Our observation reveals that increasing problem complexity induces more excessive and unnecessary reflection, which in turn reduces accuracy and increases token overhead. To address this challenge, we propose Adaptive Reflection and Length Coordinated Penalty (ARLCP), a novel reinforcement learning framework designed to dynamically balance reasoning efficiency and solution accuracy. ARLCP introduces two key innovations: (1) a reflection penalty that adaptively curtails unnecessary reflective steps while preserving essential reasoning, and (2) a length penalty calibrated to the estimated complexity of the problem. By coordinating these penalties, ARLCP encourages the model to generate more concise and effective reasoning paths. We evaluate our method on five mathematical reasoning benchmarks using DeepSeek-R1-Distill-Qwen-1.5B and DeepSeek-R1-Distill-Qwen-7B models. Experimental results show that ARLCP achieves a superior efficiency-accuracy trade-off compared to existing approaches. For the 1.5B model, it reduces the average response length by 53.1% while simultaneously improving accuracy by 5.8%. For the 7B model, it achieves a 35.0% reduction in length with a 2.7% accuracy gain. The code is released at https://github.com/ZeweiYu1/ARLCP .
- Abstract(参考訳): 大規模推論モデル(LRM)は、テスト時間スケーリングを用いて複雑な推論タスクにおいて顕著な性能を示した。
しかし、彼らはしばしば、繰り返しの自己主張や円の推論のような相当なリフレクションによって引き起こされ、高いトークン消費、かなりの計算オーバーヘッド、より小さなモデルでは特に精度を向上することなく遅延を増大させるという、長い連鎖を生成する。
本研究により,問題複雑性の増大はより過大かつ不要な反射を誘発し,それによって精度が低下し,トークンのオーバーヘッドが増大することが明らかとなった。
この課題に対処するために、推論効率と解の精度を動的にバランスさせる新しい強化学習フレームワーク、Adaptive Reflection and Length Coordinated Penalty (ARLCP)を提案する。
ARLCPは,(1)本質的な推論を保ちながら不必要な反射ステップを適応的に補正する反射ペナルティ,(2)問題の複雑さを推定する長さペナルティ,という2つの重要なイノベーションを導入している。
これらの罰則を調整することにより、ARLCPはより簡潔で効果的な推論経路を生成するようモデルに促す。
我々は,DeepSeek-R1-Distill-Qwen-1.5BモデルとDeepSeek-R1-Distill-Qwen-7Bモデルを用いて,5つの数学的推論ベンチマークの評価を行った。
実験の結果,ARLCPは既存の手法に比べて効率・精度のトレードオフが優れていることがわかった。
1.5Bモデルでは、平均応答長を53.1%削減し、同時に精度を5.8%向上させる。
7Bモデルでは、長さが35.0%減少し、精度が2.7%向上する。
コードはhttps://github.com/ZeweiYu1/ARLCPで公開されている。
関連論文リスト
- Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Towards Flash Thinking via Decoupled Advantage Policy Optimization [11.025775055262569]
大規模共振モデル(LRM)は、教師付き微調整(SFT)と強化学習(RL)によって複雑な問題を解く際、顕著な性能を達成した。
既存のRLアルゴリズムは、過度に長い応答と過度な問題に悩まされ、推論遅延と計算消費が増大する。
本稿では,モデルに対する非効率推論を減らすために,新しいRLフレームワークDEPOを提案する。
論文 参考訳(メタデータ) (2025-10-17T07:19:20Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。