論文の概要: Multi-head Reward Aggregation Guided by Entropy
- arxiv url: http://arxiv.org/abs/2503.20995v1
- Date: Wed, 26 Mar 2025 21:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:26.073494
- Title: Multi-head Reward Aggregation Guided by Entropy
- Title(参考訳): エントロピーによるマルチヘッド逆アグリゲーション
- Authors: Xiaomin Li, Xupeng Chen, Jingxuan Fan, Eric Hanchen Jiang, Mingye Gao,
- Abstract要約: 高い評価エントロピーによって特徴づけられる規則は、人間が好む反応を識別する上で信頼性が低い。
ENCOREは,高い評価エントロピーを示す低重み付け規則により,マルチヘッド報酬を構成する簡単なエントロピー誘導手法である。
提案手法はトレーニングフリーで,様々なデータセットに適用可能であり,解釈可能性を維持している。
- 参考スコア(独自算出の注目度): 1.7505359879440667
- License:
- Abstract: Aligning large language models (LLMs) with safety guidelines typically involves reinforcement learning from human feedback (RLHF), relying on human-generated preference annotations. However, assigning consistent overall quality ratings is challenging, prompting recent research to shift towards detailed evaluations based on multiple specific safety criteria. This paper uncovers a consistent observation: safety rules characterized by high rating entropy are generally less reliable in identifying responses preferred by humans. Leveraging this finding, we introduce ENCORE, a straightforward entropy-guided approach that composes multi-head rewards by downweighting rules exhibiting high rating entropy. Theoretically, we demonstrate that rules with elevated entropy naturally receive minimal weighting in the Bradley-Terry optimization framework, justifying our entropy-based penalization. Through extensive experiments on RewardBench safety tasks, our method significantly surpasses several competitive baselines, including random weighting, uniform weighting, single-head Bradley-Terry models, and LLM-based judging methods. Our proposed approach is training-free, broadly applicable to various datasets, and maintains interpretability, offering a practical and effective solution for multi-attribute reward modeling.
- Abstract(参考訳): 安全ガイドライン付き大規模言語モデル(LLM)のアラインメントは通常、人為的フィードバック(RLHF)からの強化学習を伴い、人為的な嗜好アノテーションに依存している。
しかし、一貫した総合的な品質評価の割り当ては困難であり、最近の研究は、複数の特定の安全性基準に基づく詳細な評価へと移行している。
高い評価エントロピーを特徴とする安全ルールは、一般にヒトが好む応答の同定において信頼性が低い。
この発見を生かしたENCOREは、高い評価エントロピーを示す重み付け規則により、マルチヘッド報酬を構成する単純なエントロピー誘導アプローチである。
理論的には、高次エントロピーを持つ規則はBradley-Terry最適化フレームワークにおいて自然に最小の重み付けを受けており、エントロピーに基づくペナル化を正当化する。
RewardBenchの安全性タスクに関する広範な実験を通じて、ランダムな重み付け、均一な重み付け、シングルヘッドBradley-Terryモデル、LLMに基づく判定方法など、いくつかの競合するベースラインを大きく超えている。
提案手法はトレーニングフリーで、様々なデータセットに適用可能であり、解釈可能性を維持し、マルチ属性報酬モデリングのための実用的で効果的なソリューションを提供する。
関連論文リスト
- HPS: Hard Preference Sampling for Human Preference Alignment [55.113864906702865]
HPS(Hard Preference Sampling)は、堅牢で効率的な人間の選好アライメントのための新しいフレームワークである。
HPSはアライメント品質を維持しながら計算オーバーヘッドを低減する。
HH-RLHFとPKU-Safetyデータセットの実験はHPSの有効性を検証する。
論文 参考訳(メタデータ) (2025-02-20T09:37:41Z) - Data-adaptive Safety Rules for Training Reward Models [9.172858508920696]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせてモデルを調整するために一般的に用いられる。
本稿では,各応答対について最も重要なルールを適応的に選択する動的手法を提案する。
2025年1月25日現在、我々のモデルはリーダーボード上で最高の安全性能を達成し、様々な大型モデルを上回っている。
論文 参考訳(メタデータ) (2025-01-26T08:49:46Z) - Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning [12.721239079824622]
予測型近似を使わずに高いレベルの安全性を実現する安全な強化学習(RL)パラダイムを提案する。
非対称分布密度を補償するために、量子勾配の傾き更新戦略を実装した。
実験により、提案モデルが安全性要件(量子的制約)を完全に満たし、高いリターンで最先端のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2024-12-17T18:58:00Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。