論文の概要: Personalized Language Modeling from Personalized Human Feedback
- arxiv url: http://arxiv.org/abs/2402.05133v1
- Date: Tue, 6 Feb 2024 04:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-09 17:55:36.155888
- Title: Personalized Language Modeling from Personalized Human Feedback
- Title(参考訳): パーソナライズされた人間のフィードバックからのパーソナライズド言語モデリング
- Authors: Xinyu Li, Zachary C. Lipton, Liu Leqi
- Abstract要約: 個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
- 参考スコア(独自算出の注目度): 55.458647587228185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is the current dominating
framework to fine-tune large language models to better align with human
preferences. However, the underlying premise of algorithms developed under this
framework can be problematic when user preferences encoded in human feedback
are diverse. In this work, we aim to address this problem by developing methods
for building personalized language models. We first formally introduce the task
of learning from personalized human feedback and explain why vanilla RLHF can
be problematic in this context. We then propose a general Personalized-RLHF
(P-RLHF) framework, which requires one to jointly learn a user model and a
language (or reward) model. The user model takes in user information and
outputs user representations. Its structure encodes our assumptions about user
preferences underlying the feedback data. We develop new learning objectives
for personalized reward modeling and personalized Direct Preference
Optimization. To demonstrate the efficacy of our method, we test it on
real-world text summarization data with annotated preferences and annotator
information. We fine-tune GPT-J 6B to obtain personalized language (and reward)
models, which outperform non-personalized models in terms of aligning with
individual preferences.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせて大きな言語モデルを微調整する、現在の支配的なフレームワークである。
しかし、このフレームワークで開発されたアルゴリズムの前提は、人間のフィードバックに符号化されたユーザの好みが多様である場合に問題となる。
本研究では,パーソナライズされた言語モデルを構築する手法の開発により,この問題に対処しようとする。
まず、個人化されたフィードバックから学習するタスクを正式に紹介し、なぜバニラRLHFが問題となるのかを説明する。
次に、ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHF(P-RLHF)フレームワークを提案する。
ユーザモデルはユーザ情報を取り込み、ユーザ表現を出力する。
その構造は、フィードバックデータに基づくユーザの好みに関する仮定をエンコードします。
我々はパーソナライズされた報酬モデリングとパーソナライズされた直接選好最適化のための新しい学習目標を開発した。
本手法の有効性を示すために,アノテーション付き選好情報と注釈情報を用いた実世界のテキスト要約データを用いてテストを行った。
GPT-J 6Bを微調整してパーソナライズされた言語(と報酬)モデルを得る。
関連論文リスト
- HyPerAlign: Hypotheses-driven Personalized Alignment [24.67727411391369]
大規模言語モデル(LLM)のための仮説駆動型パーソナライズ手法(HyPerAlign)を提案する。
検討的なアライメントのために、LLMモデルの有効性は平均して70ドルまで改善される。
著者の帰属について、結果は、最先端の選好微調整アプローチに対して、常に高い勝利率(通常90%ドル)を示す。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。
提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文 参考訳(メタデータ) (2025-04-20T01:16:24Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Language Model Personalization via Reward Factorization [38.30745045315918]
ユーザパーソナライズを可能にするためにRLHFを拡張するフレームワークを導入する。
ユーザ固有の報酬を,基本報酬関数の線形結合として表現する。
人間の評価では,デフォルトの GPT-4o 応答よりも 67% の勝利率が得られる。
論文 参考訳(メタデータ) (2025-03-08T23:41:20Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Personalized Adaptation via In-Context Preference Learning [20.042909385219716]
Preference Pretrained Transformer (PPT) は、オンラインユーザフィードバックを用いた適応型パーソナライズのための新しいアプローチである。
この結果から,大規模言語モデルにおけるスケーラブルで効率的なパーソナライズのためのコンテキスト内学習の可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-17T20:06:02Z) - Unsupervised Human Preference Learning [7.959043497459107]
大きな言語モデルは印象的な推論能力を示しているが、パーソナライズされたコンテンツを提供するのに苦労している。
文脈内学習やパラメータ効率のよい微調整といった既存の手法は、人間の嗜好の複雑さを捉えるには不十分である。
そこで本研究では,より大規模で事前学習されたモデルを示す自然言語規則を生成するために,小パラメータモデルを選好エージェントとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T17:51:01Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - LLMs + Persona-Plug = Personalized LLMs [41.60364110693824]
パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。
これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。
そこで我々は,LLMモデルを提案する。軽量なプラグインユーザ埋め込みモジュールを用いて,過去の状況をすべてモデル化し,個人毎のユーザ固有の埋め込みを構築する。
論文 参考訳(メタデータ) (2024-09-18T11:54:45Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Learning Implicit User Profiles for Personalized Retrieval-Based Chatbot [29.053654530024083]
IMPChatは、ユーザのパーソナライズされた言語スタイルとパーソナライズされた好みを個別にモデリングすることで、暗黙のユーザプロファイルを学習することを目的としている。
ユーザのパーソナライズされた言語スタイルを学習するために,ユーザの過去の応答を利用して,浅い言語から深い言語モデルを構築する。
回答候補をそれぞれパーソナライズされた言語スタイルとパーソナライズされた好みとでマッチングし、2つのマッチング信号を融合して最終的なランキングスコアを決定する。
論文 参考訳(メタデータ) (2021-08-18T02:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。