論文の概要: Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03259v1
- Date: Fri, 26 Sep 2025 14:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.81256
- Title: Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
- Title(参考訳): メタアウェアネスは推論モデルを促進する:自己アライメント強化学習
- Authors: Yoonjeon Kim, Doohyuk Jang, Eunho Yang,
- Abstract要約: 自己アライメント(MASA)によるメタアウェアネスを高めるトレーニングパイプラインを設計する。
既存のメタ認知推論モデルとは異なり、本手法は外部トレーニング源を必要としない。
我々の戦略は、ドメイン内タスクの精度とトレーニング効率の両方において、大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 38.67622953293653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.
- Abstract(参考訳): 推論モデルに関する最近の研究は、言語モデルのメタ認識、思考の仕方を知る能力について探求している。
我々は,大規模な推論モデルには,真のロールアウトと予測されたメタ情報との深刻なミスアライメントを証明することによって,このメタ認識性を欠いていることを論じる。
メタ予測と真のロールアウトの整合性は、大幅なパフォーマンス向上につながると仮定する。
この仮説を検証するために,メタアライメント(MASA)によるメタアライメントを向上させるトレーニングパイプラインを設計し,メタアライメントの強化が直接的に精度を向上させることを証明する。
既存のメタ認知推論モデルとは異なり、我々の手法は外部の訓練源を必要としないが、自己生成信号を利用してメタ認識を訓練する。
さらに,本手法は効率的なトレーニングを可能にする。
一 自明であるか未解決であるゼロ分散プロンプトをフィルタリングすること
二 正解に至りそうにないときに、長いロールアウトを切ること。
我々の戦略は、ドメイン内タスクの精度とトレーニング効率の両方において大幅な改善をもたらし、ドメイン外のベンチマークに強力な一般化を示す。
具体的には,1.28倍以上のGRPOトレーニングを高速化し,AIME25の精度19.3%,6つの数学ベンチマークの平均利得6.2%を達成できる。
メタ認知誘導によるトレーニングはドメイン外一般化を強化し、GPQA-ダイアモンドでは3.87%、論理、科学、コーディングドメインにまたがる13のベンチマークで全体の精度が2.08%向上した。
関連論文リスト
- Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - MetaScale: Test-Time Scaling with Evolving Meta-Thoughts [51.35594569020857]
実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
論文 参考訳(メタデータ) (2025-03-17T17:59:54Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。