論文の概要: VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction
- arxiv url: http://arxiv.org/abs/2602.12579v1
- Date: Fri, 13 Feb 2026 03:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.834742
- Title: VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction
- Title(参考訳): VI-CuRL:信頼誘導可変化による検証独立RL推論の安定化
- Authors: Xin-Qiang Cai, Masashi Sugiyama,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
- 参考スコア(独自算出の注目度): 55.04308051033549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a dominant paradigm for enhancing Large Language Models (LLMs) reasoning, yet its reliance on external verifiers limits its scalability. Recent findings suggest that RLVR primarily functions by eliciting latent capabilities, motivating the development of verifier-free algorithms. However, in such settings, standard methods like Group Relative Policy Optimization face a critical challenge: destructive gradient variance that often leads to training collapse. To address this issue, we introduceVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL), a framework that leverages the model's intrinsic confidence to construct a curriculum independent from external verifiers. By prioritizing high-confidence samples, VI-CuRL effectively manages the bias-variance trade-off, specifically targeting the reduction of action and problem variance. We provide a rigorous theoretical analysis, proving that our estimator guarantees asymptotic unbiasedness. Empirically, VI-CuRL promotes stability and consistently outperforms verifier-independent baselines across six challenging benchmarks with/without verifiers.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論の拡張の主流パラダイムとして登場したが、外部検証への依存はスケーラビリティを制限している。
近年の研究では、RLVRは主に潜伏能力を引き出すことによって機能し、検証不要なアルゴリズムの開発を動機付けていることが示唆されている。
しかし、そのような設定では、グループ相対政策最適化のような標準的な手法は、しばしばトレーニングの崩壊につながる破壊的な勾配のばらつきという、重大な課題に直面します。
この問題に対処するために,モデルの本質的な信頼性を活用して,外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介した。
高信頼度サンプルの優先順位付けにより、VI-CuRLはバイアス分散トレードオフを効果的に管理し、特に行動の低減と問題分散を目標としている。
我々は厳密な理論的分析を行い、この推定器が漸近的不偏性を保証することを証明した。
実証的に、VI-CuRLは安定性を促進し、検証者に依存しないベースラインを6つの挑戦的なベンチマークで連続的に上回っている。
関連論文リスト
- Uncertainty-aware Generative Recommendation [52.0751022792023]
Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。
UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
論文 参考訳(メタデータ) (2026-02-12T08:48:51Z) - UCPO: Uncertainty-Aware Policy Optimization [12.847800921274617]
既存のLarge Language Models (LLM) はバイナリ決定空間と静的不確実性報酬によってアドバンテージバイアスに悩まされ、過剰な保守主義や過剰な自信を引き起こす。
本稿では、不確実性に基づく報酬を取り入れた現在のRLパラダイムにおける報酬ハッキングと過信の根本原因を明らかにし、UnCertainty-Aware Policy Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T07:07:42Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。