論文の概要: Everyone Deserves A Reward: Learning Customized Human Preferences
- arxiv url: http://arxiv.org/abs/2309.03126v2
- Date: Fri, 15 Sep 2023 09:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 17:36:12.688521
- Title: Everyone Deserves A Reward: Learning Customized Human Preferences
- Title(参考訳): 誰でもリワードを保存する: カスタマイズされた人間の選好を学ぶ
- Authors: Pengyu Cheng, Jiawen Xie, Ke Bai, Yong Dai, Nan Du
- Abstract要約: リワードモデル(RM)は、対話品質を改善するために、大きな言語モデルと人間の好みを合わせるのに不可欠である。
そこで我々は3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証した。
我々は、カスタマイズされたRMをトレーニングしながら、一般的な好みの能力をよりよく保存する方法をいくつか見出す。
- 参考スコア(独自算出の注目度): 25.28261194665836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are essential for aligning large language models (LLMs)
with human preferences to improve interaction quality. However, the real world
is pluralistic, which leads to diversified human preferences with respect to
different religions, politics, cultures, etc. Moreover, each individual can
have their unique preferences on various topics. Neglecting the diversity of
human preferences, current human feedback aligning methods only consider a
general reward model, which is below satisfaction for customized or
personalized application scenarios. To explore customized preference learning,
we collect a domain-specific preference (DSP) dataset, which includes preferred
responses for each given query from four practical domains. Besides, from the
perspective of data efficiency, we propose a three-stage customized RM learning
scheme, then empirically verify its effectiveness on both general preference
datasets and our DSP set. Furthermore, we test multiple training and data
strategies on the three learning stages. We find several ways to better
preserve the general preferring ability while training the customized RMs,
especially general preference enrichment, and customized preference imitation
learning. The DSP dataset and code are available at
https://github.com/Linear95/DSP.
- Abstract(参考訳): リワードモデル(RM)は、対話品質を改善するために、大きな言語モデル(LLM)と人間の好みを合わせるために不可欠である。
しかし、現実の世界は多元的であり、異なる宗教や政治、文化などに関して、人間の嗜好が多様化する。
さらに、各個人は様々なトピックに対して独自の好みを持つことができる。
人間の好みの多様性を無視して、現在の人間のフィードバック調整方法は、カスタマイズまたはパーソナライズされたアプリケーションシナリオに対する満足度よりも低い一般的な報酬モデルのみを考慮する。
カスタマイズされた嗜好学習を探索するために、各クエリに対する4つの実用的なドメインからの優先応答を含むドメイン固有選好(DSP)データセットを収集する。
さらに,データ効率の観点から3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証する。
さらに,3つの学習段階において,複数のトレーニングとデータ戦略をテストする。
我々は,カスタマイズされたrms,特に一般選好エンリッチメント,およびカスタマイズされた選好模倣学習を訓練しながら,一般選好能力を維持するためのいくつかの方法を見出した。
DSPデータセットとコードはhttps://github.com/Linear95/DSPで公開されている。
関連論文リスト
- MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Personalized Language Modeling from Personalized Human Feedback [55.458647587228185]
個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Learn What You Need in Personalized Federated Learning [53.83081622573734]
$textitLearn2pFed$は、アルゴリズムに基づくパーソナライズされたフェデレーション学習フレームワークである。
我々は、textitLearn2pFed$が、従来のパーソナライズされたフェデレーション学習方法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-01-16T12:45:15Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。