論文の概要: Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains
- arxiv url: http://arxiv.org/abs/2510.18176v1
- Date: Mon, 20 Oct 2025 23:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.734452
- Title: Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains
- Title(参考訳): 局所的コヒーレンスとグローバルな妥当性 : 数学領域におけるRLVRトレースの探索
- Authors: Soumya Rani Samineni, Durgesh Kalwar, Vardaan Gangal, Siddhant Bhambri, Subbarao Kambhampati,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)-based post-training of Large Language Models (LLMs) は、推論タスクの精度を向上させることが示されている。
直接インセンティブのない中間トークンに対するRLポストトレーニングの効果について検討する。
- 参考スコア(独自算出の注目度): 13.626335241662977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR)-based post-training of Large Language Models (LLMs) has been shown to improve accuracy on reasoning tasks and continues to attract significant attention. Existing RLVR methods, however, typically treat all tokens uniformly without accounting for token-level advantages. These methods primarily evaluate performance based on final answer correctness or Pass@K accuracy, and yet make claims about RL post-training leading to improved reasoning traces. This motivates our investigation into the effect of RL post-training on intermediate tokens which are not directly incentivized. To study this, we design an experimental setup using the GRPO algorithm with Qwen-2.5-0.5B model on the GSM8K dataset. We introduce trace coherence, a First-Order Logic (FOL)-based measure to capture the consistency of reasoning steps by identifying errors in the traces. We distinguish between trace validity and trace coherence, noting that the former implies logical soundness while the latter measures local coherence via lack of errors. Our results show that RL post-training overall improves trace coherence with the most significant gains on problems where the base model fails but the RL model succeeds. Surprisingly, RL enhances local coherence without necessarily producing valid or correct solutions. This highlights a crucial distinction: improved local coherence in reasoning steps does not guarantee final answer correctness. We argue that claims of improved reasoning via RL must be examined with care, as these may be based on improved trace coherence, which may not translate into fully valid mathematical proofs.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)--based post-training of Large Language Models (LLMs) は、推論タスクの精度を向上させることが示されており、注目されている。
しかし、既存のRLVR法では、トークンレベルの利点を考慮せずに全てのトークンを均一に扱うのが一般的である。
これらの手法は主に最終回答の正しさやPass@Kの精度に基づいて性能を評価するが、RLのポストトレーニングは推論トレースの改善につながる。
このことは、直接インセンティブのない中間トークンに対するRLポストトレーニングの効果について、我々の研究を動機付けている。
そこで本研究では,GSM8Kデータセット上でQwen-2.5-0.5Bモデルを用いたGRPOアルゴリズムを用いて実験装置を設計する。
トレースの誤りを識別することで、推論ステップの一貫性を捉えるための一階述語論理(FOL)に基づく尺度であるトレースコヒーレンスを導入する。
トレース正当性とトレースコヒーレンスを区別し,前者は論理的健全性を示し,後者は誤差の欠如により局所コヒーレンスを測定する。
実験結果から,RLのポストトレーニングによりトレースコヒーレンスが向上し,ベースモデルがフェールするがRLモデルが成功する問題において,最も顕著な改善が得られた。
驚くべきことに、RLは必ずしも有効な解や正しい解を生成することなく局所的なコヒーレンスを高める。
推論ステップにおける局所コヒーレンスの改善は、最終的な回答の正しさを保証しない。
我々は、RLによる推論の改善の主張は、完全に有効な数学的証明に変換されない改良されたトレースコヒーレンスに基づいている可能性があるため、慎重に検討する必要があると論じる。
関連論文リスト
- Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning [14.57256913655025]
LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。
我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。
問題解決において人間の認識を活用することにより、ゼロ精度の問題をサブプロブレムに分解するようポリシーに促す。
論文 参考訳(メタデータ) (2025-10-13T08:16:21Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。