論文の概要: Personalized Language Modeling from Personalized Human Feedback
- arxiv url: http://arxiv.org/abs/2402.05133v3
- Date: Mon, 09 Dec 2024 04:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:51.963844
- Title: Personalized Language Modeling from Personalized Human Feedback
- Title(参考訳): パーソナライズされた人間のフィードバックからのパーソナライズド言語モデリング
- Authors: Xinyu Li, Ruiyang Zhou, Zachary C. Lipton, Liu Leqi,
- Abstract要約: パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
- 参考スコア(独自算出の注目度): 45.16986573937782
- License:
- Abstract: Personalized large language models (LLMs) are designed to tailor responses to individual user preferences. While Reinforcement Learning from Human Feedback (RLHF) is a commonly used framework for aligning LLMs with human preferences, vanilla RLHF assumes that all human preferences share the same distribution, preventing fine-tuned LLMs from generating personalized content when user preferences are diverse. In this work, we propose Personalized-RLHF (P-RLHF), an efficient framework that utilizes a lightweight user model to capture individual user preferences and jointly learns the user model and the personalized LLM from human feedback. P-RLHF exhibits the following three characteristics: (1) It enables an LLM to generate personalized content and scale efficiently with growing number of users. (2) It handles both explicit user preferences described as textual input and implicit user preferences encoded in the feedback data. (3) It eliminates the need for users to fully articulate their preferences, which are normally needed for prompting LLMs to generate personalized content yet are often impractical to obtain in real-world scenarios. Our experimental results show that personalized LLMs trained using P-RLHF generate responses that are more closely aligned with individual user preferences, outperforming vanilla, non-personalized RLHF and prompting-based personalization approaches across different tasks. We opensource our code at https://github.com/HumainLab/Personalized_RLHF.
- Abstract(参考訳): パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
Reinforcement Learning from Human Feedback (RLHF)は、LLMを人間の好みに合わせるための一般的なフレームワークであるが、Vanilla RLHFは、すべての人間の好みが同じ分布を共有していると仮定する。
本研究では,Personalized-RLHF(P-RLHF)を提案する。Personalized-RLHFは,軽量なユーザモデルを用いて個人の好みを捉え,人間のフィードバックからユーザモデルとパーソナライズされたLSMを共同で学習する。
P-RLHF は,(1) LLM がパーソナライズされたコンテンツを生成し,ユーザ数の増加とともに効率的にスケールできる,という3つの特徴を示す。
2) テキスト入力として記述された明示的なユーザ嗜好と,フィードバックデータにエンコードされた暗黙的なユーザ嗜好の両方を扱う。
(3) LLMがパーソナライズされたコンテンツを生成するのに通常必要だが、現実のシナリオでは入手できない場合が多いため、ユーザが好みを十分に表現する必要がなくなる。
実験の結果,P-RLHFを用いてトレーニングしたパーソナライズ LLM は,個々のユーザの嗜好とより密に一致した応答を生成し,バニラ,非個人化 RLHF ,異なるタスクに対するパーソナライズによるパーソナライズアプローチの促進を図った。
ソースコードはhttps://github.com/HumainLab/Personalized_RLHF.comで公開しています。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Personalized Adaptation via In-Context Preference Learning [20.042909385219716]
Preference Pretrained Transformer (PPT) は、オンラインユーザフィードバックを用いた適応型パーソナライズのための新しいアプローチである。
この結果から,大規模言語モデルにおけるスケーラブルで効率的なパーソナライズのためのコンテキスト内学習の可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-17T20:06:02Z) - Unsupervised Human Preference Learning [7.959043497459107]
大きな言語モデルは印象的な推論能力を示しているが、パーソナライズされたコンテンツを提供するのに苦労している。
文脈内学習やパラメータ効率のよい微調整といった既存の手法は、人間の嗜好の複雑さを捉えるには不十分である。
そこで本研究では,より大規模で事前学習されたモデルを示す自然言語規則を生成するために,小パラメータモデルを選好エージェントとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T17:51:01Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Learning Implicit User Profiles for Personalized Retrieval-Based Chatbot [29.053654530024083]
IMPChatは、ユーザのパーソナライズされた言語スタイルとパーソナライズされた好みを個別にモデリングすることで、暗黙のユーザプロファイルを学習することを目的としている。
ユーザのパーソナライズされた言語スタイルを学習するために,ユーザの過去の応答を利用して,浅い言語から深い言語モデルを構築する。
回答候補をそれぞれパーソナライズされた言語スタイルとパーソナライズされた好みとでマッチングし、2つのマッチング信号を融合して最終的なランキングスコアを決定する。
論文 参考訳(メタデータ) (2021-08-18T02:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。