論文の概要: Reflective Verbal Reward Design for Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2506.17834v1
- Date: Sat, 21 Jun 2025 22:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.60703
- Title: Reflective Verbal Reward Design for Pluralistic Alignment
- Title(参考訳): 多元的アライメントのための反射型言語リワード設計
- Authors: Carter Blair, Kate Larson, Edith Law,
- Abstract要約: 個人化報酬モデル学習のための新たな報酬モデリング手法を提案する。
提案手法は言語モデルを用いて,エージェントの振る舞いを批判し,嗜好を構築する反射的対話を通してユーザを誘導する。
対象者30名を対象に,非反射性言語報酬モデルよりも9~12%精度が向上した。
- 参考スコア(独自算出の注目度): 10.1630183955549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are commonly aligned with "human values" through reinforcement learning from human feedback (RLHF), where a single reward model is learned from aggregated human feedback and used to align an agent's behavior. However, human values are not homogeneous--different people hold distinct and sometimes conflicting values. Aggregating feedback into a single reward model risks disproportionately suppressing minority preferences. To address this, we present a novel reward modeling approach for learning individualized reward models. Our approach uses a language model to guide users through reflective dialogues where they critique agent behavior and construct their preferences. This personalized dialogue history, containing the user's reflections and critiqued examples, is then used as context for another language model that serves as an individualized reward function (what we call a "verbal reward model") for evaluating new trajectories. In studies with 30 participants, our method achieved a 9-12% improvement in accuracy over non-reflective verbal reward models while being more sample efficient than traditional supervised learning methods.
- Abstract(参考訳): 一般にAIエージェントは、人間からのフィードバック(RLHF)からの強化学習を通じて「人間の価値」と一致しており、そこでは、集約された人間のフィードバックから単一の報酬モデルが学習され、エージェントの行動を調整するために使用される。
しかし、人間の価値観は均質ではない。
単一の報酬モデルにフィードバックを集約することは、少数派の嗜好を不当に抑制するリスクがある。
そこで本研究では,個別報酬モデル学習のための新たな報酬モデリング手法を提案する。
提案手法は言語モデルを用いて,エージェントの振る舞いを批判し,嗜好を構築する反射的対話を通してユーザを誘導する。
このパーソナライズされた対話履歴は、ユーザのリフレクションや批判的な例を含むもので、新しい軌跡を評価するための個別報酬関数("verbal reward model"と呼ばれる)として機能する他の言語モデルのコンテキストとして使用される。
対象者30名を対象に,従来の教師あり学習法よりも効率が良く,非反射型言語報酬モデルよりも9~12%精度が向上した。
関連論文リスト
- Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。