論文の概要: Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression
- arxiv url: http://arxiv.org/abs/2508.05337v1
- Date: Thu, 07 Aug 2025 12:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.854952
- Title: Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression
- Title(参考訳): 確実性誘導反射抑制による大規模推論言語モデルの効率的な推論
- Authors: Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou,
- Abstract要約: Certainty-Guided Reflection Suppression (CGRS) は、Large Reasoning Language Models (LRLM) における過度な思考を緩和する新しい方法である。
CGRSは、モデルが現在の応答に高い信頼を示すときに、モデルが生成するリフレクショントリガを動的に抑制することで機能する。
我々のアプローチはモデルに依存しず、再トレーニングやアーキテクチャの変更は必要とせず、既存の自己回帰生成パイプラインとシームレスに統合できる。
- 参考スコア(独自算出の注目度): 30.653381666162275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Suppression (CGRS), a novel method that mitigates overthinking in LRLMs while maintaining reasoning accuracy. CGRS operates by dynamically suppressing the model's generation of reflection triggers when it exhibits high confidence in its current response, thereby preventing redundant reflection cycles without compromising output quality. Our approach is model-agnostic, requires no retraining or architectural modifications, and can be integrated seamlessly with existing autoregressive generation pipelines. Extensive experiments across four reasoning benchmarks (i.e., AIME24, AMC23, MATH500, and GPQA-D) demonstrate CGRS's effectiveness: it reduces token usage by an average of 18.5% to 41.9% while preserving accuracy. It also achieves the optimal balance between length reduction and performance compared to state-of-the-art baselines. These results hold consistently across model architectures (e.g., DeepSeek-R1-Distill series, QwQ-32B, and Qwen3 family) and scales (4B to 32B parameters), highlighting CGRS's practical value for efficient reasoning.
- Abstract(参考訳): 近年のLarge Reasoning Language Models (LRLM) では、複雑なリフレクション動作を伴う長い連鎖推論を採用しており、通常は特定のトリガーワード(例えば、"Wait" や "Alternatively" など)で信号される。
しかし、これらのリフレクションの振る舞いは、トークンの使用率を不必要に増加させ、推論コストを上昇させ、実用性を低下させる冗長な推論ステップの生成という過大な問題を招きかねない。
本稿では、LRLMにおける過度な思考を軽減し、推論精度を維持しつつ、CGRS(Certainty-Guided Reflection Suppression)を提案する。
CGRSは、現在の応答に高い信頼性を示すときにモデルが生成するリフレクショントリガを動的に抑制することにより、出力品質を損なうことなく冗長なリフレクションサイクルを防止する。
我々のアプローチはモデルに依存しず、再トレーニングやアーキテクチャの変更は必要とせず、既存の自己回帰生成パイプラインとシームレスに統合できる。
4つの推論ベンチマーク(AIME24、AMC23、MATH500、GPQA-D)にわたる大規模な実験は、CGRSの有効性を示している。
また、最先端のベースラインと比較して、長さの削減と性能の最適バランスも達成している。
これらの結果は、モデルアーキテクチャ(例えば、DeepSeek-R1-Distillシリーズ、QwQ-32B、Qwen3ファミリ)とスケール(4Bから32Bパラメータ)を一貫して保持し、CGRSの効率的な推論のための実用的価値を強調している。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - CyclicReflex: Improving Large Reasoning Models via Cyclical Reflection Token Scheduling [16.151066326284376]
大規模推論モデル(LRM)は、複雑な問題解決のための多段階推論を実行するためにテスト時間スケーリングを利用する。
我々は、リフレクショントークンを「リソース」として扱い、リソース割り当ての問題を導入する。
本稿では,リフレクショントークンのロジットを動的に変調するデコード戦略である循環反射トークンスケジューリング(CyclicReflex)を提案する。
論文 参考訳(メタデータ) (2025-06-04T03:43:38Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models [33.05490585699939]
大規模推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、過度に考え直すという課題に直面していることが多い。
既存のアプローチでは、LRMが学習するための短い推論応答を合成するが、時間を要するデータ生成とフィルタリングプロセスのため、オンライン利用には非効率である。
本稿では,オンライントレーニングにおいて,並列サンプリングとシーケンシャルリビジョンを併用して,効率的なスケーリングを実現するための小さなリフレクションモデルであるREA-RLを提案する。
論文 参考訳(メタデータ) (2025-05-26T11:47:16Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。