論文の概要: Circuit-Aware Reward Training: A Mechanistic Framework for Longtail Robustness in RLHF
- arxiv url: http://arxiv.org/abs/2509.24713v1
- Date: Mon, 29 Sep 2025 12:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.982596
- Title: Circuit-Aware Reward Training: A Mechanistic Framework for Longtail Robustness in RLHF
- Title(参考訳): RLHFの長期ロバスト性を考慮した回路認識リワードトレーニング
- Authors: Jing Liu,
- Abstract要約: 本稿では,報酬モデルにおけるレアイベント処理に責任を負う特殊なニューラルネットワークを同定する機械的解釈可能性フレームワークを提案する。
我々の理論的枠組みは、回路特殊化、報酬一般化境界、ロングテール性能の間の形式的な接続を確立する。
このアプローチは、報酬モデル失敗に関する理論的洞察と、長期的堅牢性を改善するための実践的な介入の両方を提供する。
- 参考スコア(独自算出の注目度): 6.581088182267414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) reward models exhibit systematic failures on longtail distributions, leading to reward hacking and misalignment. We propose a mechanistic interpretability framework that identifies specialized neural circuits responsible for rare-event processing in reward models. Drawing from recent advances showing distributed specialization for rare tokens in language models\citep{liu2025no, liu2025emergent}, we hypothesize that reward models also develop functionally distinct circuits for longtail scenarios. Our theoretical framework establishes formal connections between circuit specialization, reward generalization bounds, and longtail performance. We introduce \textbf{Circuit-Aware Reward Training (CART)}, which uses circuit analysis to guide data augmentation, regularization, and ensemble strategies. This approach provides both theoretical insights into reward model failures and practical interventions for improving longtail robustness.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) 報奨モデルでは、長期分布の体系的な障害が示され、ハッキングや不正な調整に繋がる。
本稿では,報酬モデルにおけるレアイベント処理に責任を負う特殊なニューラルネットワークを同定する機械的解釈可能性フレームワークを提案する。
言語モデルにおける希少なトークンの分散特殊化を示す最近の進歩から,報酬モデルもまた,長期化シナリオのための機能的に異なる回路を開発するという仮説を立てる。
我々の理論的枠組みは、回路特殊化、報酬一般化境界、ロングテール性能の間の形式的な接続を確立する。
本稿では、回路解析を用いてデータ拡張、正規化、アンサンブル戦略をガイドする「textbf{Circuit-Aware Reward Training (CART)」を紹介する。
このアプローチは、報酬モデル失敗に関する理論的洞察と、長期的堅牢性を改善するための実践的な介入の両方を提供する。
関連論文リスト
- RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models [86.61108562387993]
RLAR(Reinforcement Learning from Agent Rewards)はエージェント駆動のフレームワークで、個別のクエリに動的に調整された報酬関数を割り当てる。
RLARは, 数学, コーディング, 翻訳, 対話タスクにおける10から60までの連続的な性能向上を示す。
論文 参考訳(メタデータ) (2026-02-28T16:14:43Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Upcycled and Merged MoE Reward Model for Mitigating Reward Hacking [0.0]
本稿では,RLHF報酬モデルのロバスト性および効率性を向上させるために,MoE報酬モデルとアップサイクルとマージする手法を提案する。
我々の研究は、RLHF報酬モデルのロバスト性および効率性を改善するために、MoE構造をアップサイクルとマージする可能性を強調した。
論文 参考訳(メタデータ) (2025-11-30T04:36:37Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:01:54Z) - The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。
RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。
RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文 参考訳(メタデータ) (2023-10-20T15:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。