論文の概要: Everyone Deserves A Reward: Learning Customized Human Preferences
- arxiv url: http://arxiv.org/abs/2309.03126v1
- Date: Wed, 6 Sep 2023 16:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 14:46:12.132791
- Title: Everyone Deserves A Reward: Learning Customized Human Preferences
- Title(参考訳): 誰でもリワードを保存する: カスタマイズされた人間の選好を学ぶ
- Authors: Pengyu Cheng, Jiawen Xie, Ke Bai, Yong Dai, Nan Du
- Abstract要約: リワードモデル(RM)は、大きな言語モデル(LLM)と人間の好みを整合させることで、相互作用の品質を向上させるのに不可欠である。
本稿では,3段階のRM学習手法を提案する。この手法の有効性は,一般的な嗜好データセットとDSPセットの両方で実証的に検証される。
- 参考スコア(独自算出の注目度): 25.28261194665836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are crucial in aligning large language models (LLMs) with
human preferences for improving interaction quality. However, the real world is
pluralistic, which leads to diversified human preferences based on different
religions, politics, cultures, etc. Moreover, each individual can have their
own unique preferences on various topics. Neglecting the diversity of human
preferences, current LLM training processes only use a general reward model,
which is below satisfaction for customized or personalized application
scenarios. To explore customized preference learning, we collect a
domain-specific preference (DSP) dataset, which collects preferred responses to
each given query from four practical domains. Besides, from the perspective of
data efficiency, we proposed a three-stage customized RM learning scheme, whose
effectiveness is empirically verified on both general preference datasets and
our DSP set. Furthermore, we test multiple training and data strategies on the
three learning stages, and have found several ways to better preserve the
general preferring ability while training the customized RMs, especially
general preference enrichment and customized preference imitation learning. The
DSP dataset and code are available at https://github.com/Linear95/DSP.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の好みを整合させることで、相互作用の品質を向上させるのに不可欠である。
しかし、現実の世界は多元的であり、異なる宗教、政治、文化などに基づく人間の嗜好の多様化につながる。
さらに、各個人は様々なトピックに対して独自の好みを持つことができる。
人間の好みの多様性を無視して、現在のLLMトレーニングプロセスでは、カスタマイズされたアプリケーションシナリオやパーソナライズされたアプリケーションシナリオに対する満足度よりも低い一般的な報酬モデルのみを使用します。
カスタマイズされた嗜好学習を探索するため、ドメイン固有選好(DSP)データセットを収集し、4つの実践的ドメインから各クエリに対する好みの応答を収集する。
さらに,データ効率の観点から,一般的な嗜好データセットとDSPデータセットの両方で有効性を実証的に検証した3段階のRM学習手法を提案する。
さらに,3つの学習段階において複数のトレーニングとデータ戦略をテストし,カスタマイズされたrms,特に一般選好エンリッチメントとカスタマイズ選好模倣学習を訓練しながら,一般選好能力をより良く維持する方法を見出した。
DSPデータセットとコードはhttps://github.com/Linear95/DSPで公開されている。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。
我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文 参考訳(メタデータ) (2024-09-15T03:55:03Z) - Personality Alignment of Large Language Models [26.071445846818914]
大規模言語モデル(LLM)を整列する現在の手法は、一般的に一般的な人間の価値観や振る舞いを反映することを目的としている。
パーソナリティアライメントの概念を紹介する。
このアプローチは、個々のユーザや近縁なグループの特定の嗜好に合うように、LSMの反応と決定を調整します。
論文 参考訳(メタデータ) (2024-08-21T17:09:00Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。