論文の概要: PIRA: Preference-Oriented Instruction-Tuned Reward Models with Dual Aggregation
- arxiv url: http://arxiv.org/abs/2511.20668v1
- Date: Fri, 14 Nov 2025 02:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.320915
- Title: PIRA: Preference-Oriented Instruction-Tuned Reward Models with Dual Aggregation
- Title(参考訳): PIRA: デュアルアグリゲーションを考慮した規範指向インストラクション調整型リワードモデル
- Authors: Yongfu Xue,
- Abstract要約: リワードモデルは、大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。
PIRAは3つの戦略を通じてこれらの問題に対処する訓練パラダイムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are crucial for aligning Large Language Models (LLMs) with human preferences but face two representative challenges. First, traditional discriminative reward models usually concatenate questions and responses directly as input, resulting in low data efficiency. Second, reward models are vulnerable to reward overoptimization. We propose PIRA, a training paradigm addressing these issues through three strategies: (1) Reformulating question-answer pairs into preference-based instructions for clearer and more explicit task specification, (2) aggregating rewards from diverse preference tasks to reduce bias and improve robustness, and (3) averaging value-head outputs under varying dropout rates to stabilize rewards. Extensive experiments have demonstrated the effectiveness of PIRA.
- Abstract(参考訳): リワードモデルは、大規模言語モデル(LLM)を人間の好みに合わせるのに不可欠だが、2つの大きな課題に直面している。
第一に、従来の差別報酬モデルは通常、質問や応答を直接入力として結合し、結果としてデータ効率が低下する。
第二に、報酬モデルは報酬の過度な最適化に対して脆弱である。
PIRA は,(1) 質問と回答のペアを,より明確で明示的なタスク仕様のための選好に基づく指示に書き換えること,(2) 偏見を低減し,堅牢性を向上させるために様々な選好タスクからの報奨を集約すること,(3) ドロップアウト率の異なる値ヘッド出力を平均化し,報奨を安定させる,という3つの戦略を通じて,これらの課題に対処する訓練パラダイムを提案する。
大規模な実験は、PIRAの有効性を実証した。
関連論文リスト
- Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization [15.729285736811383]
リワードモデルは、人間のフィードバックからの強化学習において重要な役割を果たす。
既存の報酬モデルベンチマークは、最適化されたポリシーの性能と弱い相関を示す。
論文 参考訳(メタデータ) (2025-05-19T06:43:08Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。