論文の概要: Better, Faster: Harnessing Self-Improvement in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.24998v1
- Date: Sun, 24 May 2026 10:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.641353
- Title: Better, Faster: Harnessing Self-Improvement in Large Reasoning Models
- Title(参考訳): より良く、より速く - 大規模推論モデルにおける自己改善のハーネス
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Leszek Rutkowski, Dacheng Tao,
- Abstract要約: 本稿では,2つの単純なyet- Effectiveアプローチにより,大規模推論モデルにおける自己改善を効果的に促進するHSIRを提案する。
具体的には、HSIRはデータの不均衡を軽減するために、検証済みの外部サンプリング戦略を導入する。
HSIRはまた、望ましくないソリューションを定量化しフィルタリングするために、固有の多様性スコアも設計している。
- 参考スコア(独自算出の注目度): 88.9107786925265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-improvement training enables the large reasoning models (LRMs) to improve themselves by self-generating reasoning trajectories as training data without external supervision. However, we find that this method often falls short in complex reasoning tasks and even leads to model collapse. Through a series of preliminary analyses, we reveal two problems: (1) data imbalance, where most training samples are simple, but the challenging yet crucial samples are scarce; (2) overthinking, where many undesired samples with redundant reasoning steps are used for self-training. To this end, we propose HSIR, which effectively Harnesses Self-Improvement in large Reasoning models via two simple-yet-effective approaches. Specifically, HSIR introduces a verify-then-exit sampling strategy to mitigate data imbalance by efficiently collecting more accurate solutions for difficult queries, and designs an Intrinsic Diversity score to quantify overthinking and filter out the undesired solutions. We apply HSIR to various post-training paradigms, among which we further propose H-GRPO, an enhanced GRPO algorithm that leverages the intrinsic diversity as an external reward to encourage concise and diverse reasoning via reinforcement learning. Extensive results show that HSIR not only effectively enhances the reasoning performance, i.e., bringing up to +10.9% average performance gains, but also significantly improves the reasoning efficiency by reducing up to 42.4% relative inference overhead.
- Abstract(参考訳): 自己改善トレーニングにより、大規模な推論モデル(LRM)は、外部の監督なしにトレーニングデータとして自己生成的推論トラジェクトリによって自己改善することができる。
しかし、この手法は複雑な推論タスクでは不足することが多く、モデルが崩壊することさえある。
予備分析の結果,(1)データ不均衡,殆どのトレーニングサンプルが単純だが難易度の高いサンプルは乏しい,(2)非望ましくないサンプルの多くが自己学習に使用される,という2つの問題点が明らかになった。
この目的のために、HSIRを提案する。このHSIRは、2つの単純なyet- Effectiveアプローチにより、大規模な推論モデルにおいて、効果的に自己改善を行う。
具体的には、HSIRは、難しいクエリに対するより正確なソリューションを効率よく収集することで、データの不均衡を軽減し、不必要なソリューションの過剰な検討とフィルタリングを定量化するために固有の多様性スコアを設計する。
我々はHSIRを様々なポストトレーニングパラダイムに適用し、さらにH-GRPOアルゴリズムを提案する。H-GRPOは、強化学習による簡潔で多様な推論を促進するために、内在的な多様性を外部報酬として活用する拡張GRPOアルゴリズムである。
その結果、HSIRは推論性能を効果的に向上させるだけでなく、相対的推論オーバーヘッドを最大42.4%減らすことで推論効率を大幅に向上させることがわかった。
関連論文リスト
- Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。