論文の概要: Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.10554v1
- Date: Thu, 15 May 2025 17:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.457224
- Title: Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
- Title(参考訳): Aha!」を超えて:大規模推論モデルにおける体系的メタアフィニティアライメントを目指して
- Authors: Zhiyuan Hu, Yibo Wang, Hanze Dong, Yuhui Xu, Amrita Saha, Caiming Xiong, Bryan Hooi, Junnan Li,
- Abstract要約: 大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
- 参考スコア(独自算出の注目度): 86.88657425848547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. Prior work has shown that outcome-based reinforcement learning (RL) can incidentally elicit advanced reasoning behaviors such as self-correction, backtracking, and verification phenomena often referred to as the model's "aha moment". However, the timing and consistency of these emergent behaviors remain unpredictable and uncontrollable, limiting the scalability and reliability of LRMs' reasoning capabilities. To address these limitations, we move beyond reliance on prompts and coincidental "aha moments". Instead, we explicitly align models with three meta-abilities: deduction, induction, and abduction, using automatically generated, self-verifiable tasks. Our three stage-pipeline individual alignment, parameter-space merging, and domain-specific reinforcement learning, boosting performance by over 10\% relative to instruction-tuned baselines. Furthermore, domain-specific RL from the aligned checkpoint yields an additional 2\% average gain in the performance ceiling across math, coding, and science benchmarks, demonstrating that explicit meta-ability alignment offers a scalable and dependable foundation for reasoning. Code is available at: https://github.com/zhiyuanhubj/Meta-Ability-Alignment
- Abstract(参考訳): 大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
先行研究により、結果に基づく強化学習(RL)は、自己補正、バックトラッキング、検証現象などの高度な推論の振る舞いを、しばしばモデルの「アハモーメント(aha moment)」として引き起こすことが示されている。
しかし、これらの創発的行動のタイミングと一貫性は予測不可能で制御不能であり、LRMの推論能力のスケーラビリティと信頼性を制限している。
これらの制限に対処するため、私たちはプロンプトへの依存を超えて、偶然に"aha moments"を移動します。
代わりに、自動生成された自己検証可能なタスクを使用して、モデルに推論、誘導、誘拐の3つのメタ能力を明示的に調整します。
我々の3つのステージ・パイプ・個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10倍以上の性能を向上する。
さらに、整列したチェックポイントからのドメイン固有のRLは、数学、コーディング、科学ベンチマークでパフォーマンス天井の2倍の平均的な向上をもたらし、明示的なメタビリティアライメントが推論のスケーラブルで信頼性の高い基盤を提供することを示した。
コードは、https://github.com/zhiyuanhubj/Meta-Ability-Alignmentで入手できる。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks [3.105112058253643]
アルゴリズムへの信頼の欠如は、現実世界のドメインで制御するために強化学習(RL)エージェントを使用する場合の課題である。
本稿では,典型的なRLアプローチに対して3つの利点を持つペトリネット(PN)を用いたアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-05T13:04:06Z) - A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。