Fugu-MT 論文翻訳(概要): Information-Theoretic Reward Decomposition for Generalizable RLHF

論文の概要: Information-Theoretic Reward Decomposition for Generalizable RLHF

arxiv url: http://arxiv.org/abs/2504.06020v1
Date: Tue, 08 Apr 2025 13:26:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 22:01:20.316622
Title: Information-Theoretic Reward Decomposition for Generalizable RLHF
Title（参考訳）: 一般化可能なRLHFのための情報理論逆解法
Authors: Liyuan Mao, Haoran Xu, Amy Zhang, Weinan Zhang, Chenjia Bai,
Abstract要約: 我々は報酬値を2つの独立したコンポーネントに分解する。提案手法は,データサンプルを不利な報酬値に基づいて優先順位付けすることで,新たな報酬学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 38.6093614792004
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A generalizable reward model is crucial in Reinforcement Learning from Human Feedback (RLHF) as it enables correctly evaluating unseen prompt-response pairs. However, existing reward models lack this ability, as they are typically trained by increasing the reward gap between chosen and rejected responses, while overlooking the prompts that the responses are conditioned on. Consequently, when the trained reward model is evaluated on prompt-response pairs that lie outside the data distribution, neglecting the effect of prompts may result in poor generalization of the reward model. To address this issue, we decompose the reward value into two independent components: prompt-free reward and prompt-related reward. Prompt-free reward represents the evaluation that is determined only by responses, while the prompt-related reward reflects the reward that derives from both the prompt and the response. We extract these two components from an information-theoretic perspective, which requires no extra models. Subsequently, we propose a new reward learning algorithm by prioritizing data samples based on their prompt-free reward values. Through toy examples, we demonstrate that the extracted prompt-free and prompt-related rewards effectively characterize two parts of the reward model. Further, standard evaluations show that our method improves both the alignment performance and the generalization capability of the reward model.
Abstract（参考訳）: 一般化可能な報酬モデルが人間フィードバックからの強化学習(RLHF)において重要である。しかしながら、既存の報酬モデルは、通常、選択された応答と拒否された応答の間の報酬ギャップを増大させ、応答が条件付きであるようなプロンプトを見越すことによって訓練されるため、この能力に欠ける。したがって、データ分布の外側にある応答-応答ペアに対して、トレーニングされた報酬モデルを評価すると、プロンプトの効果を無視すると、報奨モデルの一般化が不十分になる可能性がある。この問題に対処するため、報酬値を2つの独立したコンポーネント、即時報酬と即時報酬に分解する。プロンプトフリー報酬は応答のみによって決定される評価を表し、プロンプト関連報酬は、プロンプトとレスポンスの両方に由来する報酬を反映する。余分なモデルを必要としない情報理論の観点からこれらの2つの成分を抽出する。そこで本研究では,データサンプルを不利な報酬値に基づいて優先順位付けすることで,新たな報奨学習アルゴリズムを提案する。おもちゃの例を通して,抽出したプロンプトフリーおよびプロンプト関連報酬が,報酬モデルの2つの部分を効果的に特徴付けることを示した。さらに,本手法は報酬モデルのアライメント性能と一般化能力の両方を改善した。

関連論文リスト

Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文参考訳（メタデータ） (2025-03-01T14:11:04Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文参考訳（メタデータ） (2024-10-26T13:12:27Z)
RATE: Causal Explainability of Reward Models with Imperfect Counterfactuals [11.121749884408331]
属性に対する報酬モデルの感度を測定する有効な方法として,リライトに基づく属性処理推定器(RATE)を開発した。 RATEはLSMを使って応答を書き直し、因果効果を測定するのに使える不完全な反ファクトの例を生成する。提案手法の有効性を確立し,有効推定器であることを実証的に示す。
論文参考訳（メタデータ） (2024-10-15T07:22:16Z)
Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文参考訳（メタデータ） (2024-10-02T16:39:58Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Bayesian Reward Models for LLM Alignment [26.612181012468167]
我々は、トレーニングデータ分布からより高い不確実性を示すベイズ報酬モデルを訓練する。得られた不確実性推定は,BoNサンプリングにおける報酬過小評価を効果的に軽減できることがわかった。
論文参考訳（メタデータ） (2024-02-20T18:20:59Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:04Z)
Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文参考訳（メタデータ） (2023-05-28T02:12:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。