論文の概要: Mitigating False Credit Propagation: Probabilistic Graphical Reward Aggregation for Rubric-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.03361v1
- Date: Tue, 02 Jun 2026 09:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.893916
- Title: Mitigating False Credit Propagation: Probabilistic Graphical Reward Aggregation for Rubric-Based Reinforcement Learning
- Title(参考訳): False Credit Propagation: Rubric-based Reinforcement Learningのための確率的グラフィックリワードアグリゲーション
- Authors: Can Lv, Mingju Chen, Heng Chang, Shiji Zhou,
- Abstract要約: Ournameは依存性を意識したルーブリックアグリゲーションのための確率的グラフィカルフレームワークである。
HealthBench、WriteingBench、PLawBenchの2つのポリシーバックボーンによる実験は、我々の名前がフラットアグリゲーションと決定論的ゲーティングよりも一貫して改善されていることを示している。
- 参考スコア(独自算出の注目度): 13.843521373717595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rubric-based rewards are increasingly used for open-ended language model post-training, but criterion-level scores are often aggregated as independent utilities. This flat scalarization ignores rubric-specified prerequisite and activation relations among criteria, allowing reward or penalty to be counted even when the condition that licenses it is absent. We call this structural reward-aggregation failure \textbf{False Credit Propagation} (FCP). To address this limitation, we propose \ourname (\textbf{G}raphical \textbf{E}vent \textbf{A}ggregation for \textbf{R}ubric rewards), a probabilistic graphical framework for dependency-aware rubric aggregation. \ourname models each criterion outcome as a latent Bernoulli event in a typed rubric graph, propagates soft suppression from unsupported parent events to their children, and aggregates the resulting event probabilities into a normalized expected signed utility. This yields a linear-time reward computation that can be plugged into standard rubric-based RL pipelines without changing the outer optimization algorithm. Experiments on HealthBench, WritingBench, and PLawBench with two policy backbones show that \ourname consistently improves over flat aggregation and deterministic gating, achieving relative gains of up to 15.5\% over flat aggregation. FCP diagnostics further show that \ourname reduces leakage by 96.5\% relative to flat aggregation while preserving more licensed downstream utility than deterministic gating. Our code is publicly available at https://github.com/LvCan926/GEAR.
- Abstract(参考訳): ルーブリックベースの報酬は、訓練後のオープンエンド言語モデルで使われることが多いが、基準レベルのスコアは独立したユーティリティとして集約されることが多い。
この平坦なスカラー化は、基準間のルーリック指定の前提条件とアクティベーションの関係を無視し、その条件が満たされていない場合でも報酬やペナルティを数えることができる。
この構造的報酬集約失敗を,FCP (Structuural reward-aggregation failure) と呼ぶ。
この制限に対処するため、依存認識ブルリックアグリゲーションのための確率的グラフィカルフレームワークである \ourname (\textbf{G}raphical \textbf{E}vent \textbf{A}ggregation for \textbf{R}ubric rewards) を提案する。
\ournameは、それぞれの基準結果を、タイプ付きルーリックグラフの潜在ベルヌーイイベントとしてモデル化し、サポートされていない親イベントから子供へのソフトな抑圧を伝播させ、その結果のイベント確率を正規化された署名付きユーティリティに集約する。
これにより、外部最適化アルゴリズムを変更することなく、標準ルーリックベースのRLパイプラインにプラグインできる線形時間報酬計算が得られる。
HealthBench、WriteingBench、PLawBenchの2つのポリシーバックボーンによる実験は、 \ournameがフラットアグリゲーションと決定論的ゲーティングよりも一貫して改善し、フラットアグリゲーションよりも最大15.5\%の相対的なゲインを達成していることを示している。
FCP の診断では、urname はフラットアグリゲーションに対して96.5 % のリークを減らし、決定論的ゲーティングよりもよりライセンスされた下流ユーティリティを保っている。
私たちのコードはhttps://github.com/LvCan926/GEAR.comで公開されています。
関連論文リスト
- PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding [88.17174909130188]
LVLM(Large Vision-Language Models)は、視覚的な入力を高密度なトークンシーケンスにマッピングし、推論に二次的な計算ボトルネックを与える。
特徴抽出の労力を動的に分配する視覚トークン化アーキテクチャであるPARCELを紹介する。
PARCELは、既存のマトリシカベースラインを「一度にトレーニングし、どこにでもデプロイする」パラダイムを保ちながら、視覚障害者の予算で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-28T15:57:31Z) - Relative Score Policy Optimization for Diffusion Language Models [29.344961499429257]
拡散大言語モデル(dLLMs)は、並列かつ効率的なテキスト生成への有望な経路を提供する。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなった。
textbfRelative textbfScore textbfPolicy textbfOptimization (RSPO)を提案する。
論文 参考訳(メタデータ) (2026-05-11T08:58:40Z) - Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance [8.66471442661456]
隠れ状態分布は局所的推論品質に有用な信号を含むことを示す。
各GRPO群では, 局所的推論品質が変動する領域を中心に, スパンレベル隠れ状態分布間のワッサースタイン距離が増加する。
textbfSpan-level textbfHidden state textbfEd textbfAdvantage textbfReweightingを提案する。
論文 参考訳(メタデータ) (2026-04-25T14:11:23Z) - Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval [2.159285655678094]
Col-Banditは、Pop-K$識別問題として再ランク付けすることで、この計算負担を軽減するクエリ時プルーニングアルゴリズムである。
ドキュメント全体やトークンをオフラインにプルークする粗い粒度のアプローチとは異なり、Col-Banditはオンザフライで相互作用行列をスペーサーする。
実験の結果、Col-Bandit は MaxSim FLOPs を最大 5$times$ まで下げながらランキングの忠実さを保っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T21:27:01Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - RS-Reg: Probabilistic and Robust Certified Regression Through Randomized Smoothing [19.03441416869426]
我々は $ell$ norm を用いて入力データポイント上の上限を設定する方法を示す。
次に、出力が有界な回帰モデルの族を扱う際に、摂動入力の認証された上限を導出する。
シミュレーションにより, 理論結果の有効性を検証し, 単純な平滑化関数の利点と限界を明らかにする。
論文 参考訳(メタデータ) (2024-05-14T18:10:46Z) - Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target [56.99669411766284]
自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
論文 参考訳(メタデータ) (2022-11-29T18:41:20Z) - Reformulating van Rijsbergen's $F_{\beta}$ metric for weighted binary
cross-entropy [0.0]
本報告では,学習結果の報知のために,異なる損失関数とともに性能指標を組み込むことについて検討する。
焦点はvan Rijsbergens $F_beta$ metric -- 分類パフォーマンスを計測する一般的な選択肢である。
論文 参考訳(メタデータ) (2022-10-29T01:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。