論文の概要: Everyone Deserves A Reward: Learning Customized Human Preferences
- arxiv url: http://arxiv.org/abs/2309.03126v2
- Date: Fri, 15 Sep 2023 09:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 17:36:12.688521
- Title: Everyone Deserves A Reward: Learning Customized Human Preferences
- Title(参考訳): 誰でもリワードを保存する: カスタマイズされた人間の選好を学ぶ
- Authors: Pengyu Cheng, Jiawen Xie, Ke Bai, Yong Dai, Nan Du
- Abstract要約: リワードモデル(RM)は、対話品質を改善するために、大きな言語モデルと人間の好みを合わせるのに不可欠である。
そこで我々は3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証した。
我々は、カスタマイズされたRMをトレーニングしながら、一般的な好みの能力をよりよく保存する方法をいくつか見出す。
- 参考スコア(独自算出の注目度): 25.28261194665836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are essential for aligning large language models (LLMs)
with human preferences to improve interaction quality. However, the real world
is pluralistic, which leads to diversified human preferences with respect to
different religions, politics, cultures, etc. Moreover, each individual can
have their unique preferences on various topics. Neglecting the diversity of
human preferences, current human feedback aligning methods only consider a
general reward model, which is below satisfaction for customized or
personalized application scenarios. To explore customized preference learning,
we collect a domain-specific preference (DSP) dataset, which includes preferred
responses for each given query from four practical domains. Besides, from the
perspective of data efficiency, we propose a three-stage customized RM learning
scheme, then empirically verify its effectiveness on both general preference
datasets and our DSP set. Furthermore, we test multiple training and data
strategies on the three learning stages. We find several ways to better
preserve the general preferring ability while training the customized RMs,
especially general preference enrichment, and customized preference imitation
learning. The DSP dataset and code are available at
https://github.com/Linear95/DSP.
- Abstract(参考訳): リワードモデル(RM)は、対話品質を改善するために、大きな言語モデル(LLM)と人間の好みを合わせるために不可欠である。
しかし、現実の世界は多元的であり、異なる宗教や政治、文化などに関して、人間の嗜好が多様化する。
さらに、各個人は様々なトピックに対して独自の好みを持つことができる。
人間の好みの多様性を無視して、現在の人間のフィードバック調整方法は、カスタマイズまたはパーソナライズされたアプリケーションシナリオに対する満足度よりも低い一般的な報酬モデルのみを考慮する。
カスタマイズされた嗜好学習を探索するために、各クエリに対する4つの実用的なドメインからの優先応答を含むドメイン固有選好(DSP)データセットを収集する。
さらに,データ効率の観点から3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証する。
さらに,3つの学習段階において,複数のトレーニングとデータ戦略をテストする。
我々は,カスタマイズされたrms,特に一般選好エンリッチメント,およびカスタマイズされた選好模倣学習を訓練しながら,一般選好能力を維持するためのいくつかの方法を見出した。
DSPデータセットとコードはhttps://github.com/Linear95/DSPで公開されている。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。
我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文 参考訳(メタデータ) (2024-09-15T03:55:03Z) - Personality Alignment of Large Language Models [26.071445846818914]
大規模言語モデル(LLM)を整列する現在の手法は、一般的に一般的な人間の価値観や振る舞いを反映することを目的としている。
パーソナリティアライメントの概念を紹介する。
このアプローチは、個々のユーザや近縁なグループの特定の嗜好に合うように、LSMの反応と決定を調整します。
論文 参考訳(メタデータ) (2024-08-21T17:09:00Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。