論文の概要: Reflective Verbal Reward Design for Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2506.17834v1
- Date: Sat, 21 Jun 2025 22:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.60703
- Title: Reflective Verbal Reward Design for Pluralistic Alignment
- Title(参考訳): 多元的アライメントのための反射型言語リワード設計
- Authors: Carter Blair, Kate Larson, Edith Law,
- Abstract要約: 個人化報酬モデル学習のための新たな報酬モデリング手法を提案する。
提案手法は言語モデルを用いて,エージェントの振る舞いを批判し,嗜好を構築する反射的対話を通してユーザを誘導する。
対象者30名を対象に,非反射性言語報酬モデルよりも9~12%精度が向上した。
- 参考スコア(独自算出の注目度): 10.1630183955549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are commonly aligned with "human values" through reinforcement learning from human feedback (RLHF), where a single reward model is learned from aggregated human feedback and used to align an agent's behavior. However, human values are not homogeneous--different people hold distinct and sometimes conflicting values. Aggregating feedback into a single reward model risks disproportionately suppressing minority preferences. To address this, we present a novel reward modeling approach for learning individualized reward models. Our approach uses a language model to guide users through reflective dialogues where they critique agent behavior and construct their preferences. This personalized dialogue history, containing the user's reflections and critiqued examples, is then used as context for another language model that serves as an individualized reward function (what we call a "verbal reward model") for evaluating new trajectories. In studies with 30 participants, our method achieved a 9-12% improvement in accuracy over non-reflective verbal reward models while being more sample efficient than traditional supervised learning methods.
- Abstract(参考訳): 一般にAIエージェントは、人間からのフィードバック(RLHF)からの強化学習を通じて「人間の価値」と一致しており、そこでは、集約された人間のフィードバックから単一の報酬モデルが学習され、エージェントの行動を調整するために使用される。
しかし、人間の価値観は均質ではない。
単一の報酬モデルにフィードバックを集約することは、少数派の嗜好を不当に抑制するリスクがある。
そこで本研究では,個別報酬モデル学習のための新たな報酬モデリング手法を提案する。
提案手法は言語モデルを用いて,エージェントの振る舞いを批判し,嗜好を構築する反射的対話を通してユーザを誘導する。
このパーソナライズされた対話履歴は、ユーザのリフレクションや批判的な例を含むもので、新しい軌跡を評価するための個別報酬関数("verbal reward model"と呼ばれる)として機能する他の言語モデルのコンテキストとして使用される。
対象者30名を対象に,従来の教師あり学習法よりも効率が良く,非反射型言語報酬モデルよりも9~12%精度が向上した。
関連論文リスト
- Capturing Individual Human Preferences with Reward Features [47.43999785878563]
個人の好みを一般報酬特徴の線形結合として捉えることができることを示す。
このような特徴を学習し、その後、報酬モデルを特定の個人に迅速に適応させる方法を示します。
提案するアーキテクチャを非適応型報酬モデルと適応型報酬モデルと比較し,大規模言語モデルを用いた実験を行った。
論文 参考訳(メタデータ) (2025-03-21T17:39:33Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。