FuguReport

Better, Faster: Harnessing Self-Improvement in Large Reasoning Models

著者 Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Leszek Rutkowski, Dacheng Tao
所属 Wuhan University / Alibaba / Nanyang Technological University / AGH University of Science and Technology
カテゴリ Method / Self-Improvement / Promoting self-improvement in reasoning models, Evaluation / Model Quality / Filtering undesirable solutions, Method / Data Sampling / Reducing data imbalance with external sampling
ライセンス CC BY 4.0

Abstractの概要

本論文は、大規模推論モデルの自己改善学習が複雑なタスクで失敗する原因を研究し、2つの頻発する問題を特定している。すなわち、難しいクエリが正しい学習軌跡を十分に生成できない「データ不均衡」と、冗長な推論過程が学習に保持されてしまう「考えすぎ(overthinking)」である。これらの問題に対処するため、著者らは検証後終了サンプリング戦略(VeriExit)と、モデルの内部状態から計算される本質的多様性スコア(InDiv)を組み合わせたHSIRを提案している。VeriExitは、中間ステップが正解に達した時点で軌跡を切り詰めることで、失敗した解から有用な部分推論を回収する一方、InDivは単なる長さに頼らず、過度に反復的な解をフィルタリングする。この手法は教師あり微調整および選好学習に適用され、さらにInDivを補助報酬として用いるH-GRPOを通じて強化学習にも拡張されている。

新規性

本論文の主要な新規性は、推論モデルの自己改善に向けた2つの的を絞ったメカニズムを組み合わせた点にある。すなわち、中間ステップの検証を通じた失敗軌跡の再利用と、隠れ表現やアテンションから導出される本質的多様性スコアによる「考えすぎ」の測定である。さらに、純粋な長さベースのペナルティの代わりに、同じ多様性シグナルを外部報酬として用いるH-GRPOにより、このアイデアをRLVRに拡張している。

成果

7つの言語モデルと5つの推論タスク全体において、HSIRは従来の自己改善ベースラインを上回り、精度と効率の両方を一貫して向上させている。報告されたQwen2.5の実験では、HSIR-DPOは最大で平均10.9%の性能向上を達成しつつ、相対的な推論オーバーヘッドを最大42.4%削減し、さらに反復学習においてIRPOよりも強力な分布外汎化能力を示している。

論文の注目点

  1. 複雑な推論における自己改善の限界を、「難易度の高い成功サンプルの不足」と「冗長な推論過程の混入」という2つの具体的な問題に起因すると特定した。
  2. HSIRは、正しい部分軌跡を回収するVeriExitと、モデルの内部表現を用いて反復的な解を判定するInDivを導入することで、これらの問題に対処する。
  3. 実証評価により、これらの介入が推論精度とトークン効率の両方を向上させることが示され、同じ多様性シグナルをH-GRPOを介してGRPOの改善に活用できることが実証された。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。