Fugu-MT 論文翻訳(概要): Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

論文の概要: Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.21420v1
Date: Tue, 24 Feb 2026 22:46:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.630128
Title: Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning
Title（参考訳）: 過度に信頼されたエラーはより強い補正を必要とする:強化学習のための非対称な信頼の罰
Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang,
Abstract要約: 既存の手法が見落としている根本原因を同定する。現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。非対称信頼度を考慮した誤り罰(ACE)を提案する。
参考スコア（独自算出の注目度）: 17.384089089363382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become the leading paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard RLVR algorithms suffer from a well-documented pathology: while they improve Pass@1 accuracy through sharpened sampling, they simultaneously narrow the model's reasoning boundary and reduce generation diversity. We identify a root cause that existing methods overlook: the uniform penalization of errors. Current approaches -- whether data-filtering methods that select prompts by difficulty, or advantage normalization schemes -- treat all incorrect rollouts within a group identically. We show that this uniformity allows overconfident errors (incorrect reasoning paths that the RL process has spuriously reinforced) to persist and monopolize probability mass, ultimately suppressing valid exploratory trajectories. To address this, we propose the Asymmetric Confidence-aware Error Penalty (ACE). ACE introduces a per-rollout confidence shift metric, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), to dynamically modulate negative advantages. Theoretically, we demonstrate that ACE's gradient can be decomposed into the gradient of a selective regularizer restricted to overconfident errors, plus a well-characterized residual that partially moderates the regularizer's strength. We conduct extensive experiments fine-tuning Qwen2.5-Math-7B, Qwen3-8B-Base, and Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO within the VERL framework. Evaluated on MATH-500 and AIME 2025, ACE composes seamlessly with existing methods and consistently improves the full Pass@k spectrum across all three model families and benchmarks.
Abstract（参考訳）: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models (LLMs)における推論の強化のための主要なパラダイムとなっている。しかし、標準的なRLVRアルゴリズムは、シャープサンプリングによってPass@1の精度を向上する一方で、モデルの推論境界を同時に狭め、生成の多様性を低減する。既存の手法が見落としている根本原因を同定する。現在のアプローチ -- 困難によってプロンプトを選択するデータフィルタリング手法や正規化スキームの活用 -- は、グループ内のすべての誤ったロールアウトを同じように扱う。この一様性は、過信の誤り(RL過程が突発的に強化された誤った推論経路)を持続し、確率質量を独占することを可能にし、最終的には妥当な探索軌道を抑えることを示す。そこで本稿では,非対称信頼を意識したエラー罰 (ACE) を提案する。 c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)) は、負の利点を動的に変調する。理論的には、ACEの勾配は、過信誤りに制限された選択正則化器の勾配と、正規化器の強度を部分的に和らげる良好な特性を有する残留物に分解できることを実証する。本研究では,Qwen2.5-Math-7B,Qwen3-8B-Base,Llama-3.1-8B-Instruct on the DAPO-Math-17K dataset using GRPO and DAPO in the VERL framework。 MATH-500とAIME 2025で評価され、ACEは既存のメソッドとシームレスに構成され、3つのモデルファミリとベンチマークの完全なPass@kスペクトルが一貫して改善されている。

関連論文リスト

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning [16.012761588513026]
Reinforcement Learning with Verifiable Rewards (RLVR)アルゴリズムは、剛性、均一性、および対称性のある信頼領域機構に依存している。本稿では,これらの3次元を調和させる統合フレームワークであるMass-Adaptive Soft Policy Optimization (MASPO)を提案する。 MASPOは、勾配ユーティリティを最大化するために、微分可能なソフトガウスゲーティングと、確率スペクトル間の探索のバランスをとる質量適応リミッタと、信号の信頼性を調整するための非対称リスクコントローラを統合している。
論文参考訳（メタデータ） (2026-02-19T17:05:20Z)
Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models [2.5170433424424874]
Reinforcement Learning with Verifiable Rewardsは、大規模言語モデルにおける厳格な推論能力を取り入れるための支配的なパラダイムとして、自らを確立している。このアライメントプロセスにおいて重要な病理は、有効だが稀な(ベースモデル分布下での低様相)推論経路の体系的抑制である。本稿では,ベースモデルの潜伏多様性を捨てることなく,この崩壊を防止すべく,ARTS(Amortized Reasoning Tree Search)を提案する。
論文参考訳（メタデータ） (2026-02-13T11:52:50Z)
Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文参考訳（メタデータ） (2026-01-26T21:38:20Z)
CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。 CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文参考訳（メタデータ） (2025-12-22T16:34:21Z)
Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文参考訳（メタデータ） (2025-10-01T13:56:44Z)
Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文参考訳（メタデータ） (2025-09-26T23:40:47Z)
Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文参考訳（メタデータ） (2025-09-23T09:14:39Z)
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文参考訳（メタデータ） (2025-09-09T06:34:32Z)
The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文参考訳（メタデータ） (2025-06-02T06:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。