論文の概要: Native Reasoning Models: Training Language Models to Reason on Unverifiable Data
- arxiv url: http://arxiv.org/abs/2602.11549v1
- Date: Thu, 12 Feb 2026 04:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.632822
- Title: Native Reasoning Models: Training Language Models to Reason on Unverifiable Data
- Title(参考訳): ネイティブ推論モデル:未検証データに基づく推論のための言語モデルトレーニング
- Authors: Yuanfu Wang, Zhixuan Liu, Xiangtian Li, Chaochao Lu, Chao Yang,
- Abstract要約: NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.065264121785294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing paradigm for training large reasoning models--combining Supervised Fine-Tuning (SFT) with Reinforcement Learning with Verifiable Rewards (RLVR)--is fundamentally constrained by its reliance on high-quality, human-annotated reasoning data and external verifiers. This dependency incurs significant data-collection costs, risks embedding human cognitive biases, and confines the reinforcement learning stage to objectively assessable domains like mathematics and coding, leaving a wide range of unverifiable tasks beyond its scope. To overcome these limitations, we introduce NRT (Native Reasoning Training), a novel framework that cultivates complex reasoning by having the model generate its own reasoning traces using only standard question-answer pairs, thereby obviating the need for expert-written demonstrations. NRT reframes the training problem by treating the reasoning process as a latent variable. It employs a unified training objective that models reasoning as an optimization problem, intrinsically rewarding paths that increase the model's likelihood of producing the ground-truth answer. This unified perspective allows us to analyze intrinsic failure modes of prior methods, such as policy collapse, and systematically design more robust reward aggregation functions, creating a self-reinforcing feedback loop where the model learns to think in ways that resolve its own uncertainty. Empirical evaluation on Llama and Mistral model families demonstrates that NRT achieves state-of-the-art performance among verifier-free methods, significantly outperforming standard SFT baselines and prior verifier-free RL methods. Our approach yields particularly strong performance gains in complex reasoning domains and exhibits high robustness to policy collapse, offering a general, scalable path toward building more powerful and broadly applicable reasoning systems.
- Abstract(参考訳): 大規模推論モデルのトレーニングの主流となるパラダイム – 監視ファインタニング(SFT)と検証リワードによる強化学習(RLVR)を組み合わせる – は,高品質で人為的な推論データと外部検証に頼って,基本的に制限されている。
この依存関係は、重大なデータ収集コスト、人間の認知バイアスを埋め込むリスク、強化学習段階を、数学やコーディングのような客観的に評価可能な領域に制限し、その範囲を超えて、幅広い検証不可能なタスクを残します。
これらの制約を克服するために,NRT(Native Reasoning Training)という,モデルに標準的な質問応答ペアのみを用いて独自の推論トレースを生成して,複雑な推論を育む新しいフレームワークを導入する。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
それは、モデル推論を最適化問題としてモデル化する統一的な訓練目標を採用し、本質的にはモデルが根本的真実の答えを生み出す可能性を高める経路に報酬を与える。
この統合された視点により、政策崩壊などの先行手法の本質的な障害モードを分析し、より堅牢な報酬集約関数を体系的に設計し、モデルが自身の不確実性を解決する方法を学ぶ自己強化フィードバックループを作成することができる。
Llama と Mistral モデルファミリの実験的評価は,NRT が検証不要な手法の最先端性能を実現し,標準 SFT ベースラインと事前検証不要な RL 手法を著しく上回っていることを示す。
我々のアプローチは、複雑な推論領域において特に強力なパフォーマンス向上をもたらし、ポリシー崩壊に対する堅牢性を示し、より強力で広く適用可能な推論システムを構築するための、汎用的でスケーラブルな道筋を提供する。
関連論文リスト
- Reward Modeling for Reinforcement Learning-Based LLM Reasoning: Design, Challenges, and Evaluation [46.38008143057758]
大きな言語モデル(LLM)は変革の可能性を示しているが、その推論は矛盾し、信頼できないままである。
この研究は、報酬モデリングは単なる実装の詳細ではなく、推論アライメントの中心的なアーキテクトであると主張している。
本枠組みでは,報奨機構の分類,報奨ハッキングを広範にわたる障害モードとして分析し,報奨が課題を統一する方法について検討する。
論文 参考訳(メタデータ) (2026-02-10T00:45:24Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - From Accuracy to Robustness: A Study of Rule- and Model-based Verifiers in Mathematical Reasoning [41.02508512078575]
数理推論をケーススタディとして、静的評価とRLトレーニングのシナリオの両方において、様々な検証を包括的に分析する。
まず、現在のオープンソースルールベースの検証器は、異なるフォーマットで提示された同等の回答を認識できないことが多く、無視できない偽陰性率をもたらす。
これらの制約に対処するための潜在的な解決策としてモデルベース検証について検討する。
論文 参考訳(メタデータ) (2025-05-28T10:28:41Z) - RARE: Retrieval-Augmented Reasoning Modeling [41.24577920467858]
本稿では,推論最適化から知識記憶を分離する新しいパラダイムであるRetrieval-Augmented Reasoning Modeling (RARE)を提案する。
RAREはドメイン知識を検索可能なソースに外部化し、トレーニング中にドメイン固有の推論パターンを内部化する。
実験により、軽量トレーニングモデル(例えば、Llama-3.1-8B)は、検索強化GPT-4とDeepSeek-R1を約20%の精度で超える、最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2025-03-30T16:49:44Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。