論文の概要: Personalized Language Modeling from Personalized Human Feedback
- arxiv url: http://arxiv.org/abs/2402.05133v1
- Date: Tue, 6 Feb 2024 04:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:55:36.155888
- Title: Personalized Language Modeling from Personalized Human Feedback
- Title(参考訳): パーソナライズされた人間のフィードバックからのパーソナライズド言語モデリング
- Authors: Xinyu Li, Zachary C. Lipton, Liu Leqi
- Abstract要約: 個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
- 参考スコア(独自算出の注目度): 55.458647587228185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is the current dominating
framework to fine-tune large language models to better align with human
preferences. However, the underlying premise of algorithms developed under this
framework can be problematic when user preferences encoded in human feedback
are diverse. In this work, we aim to address this problem by developing methods
for building personalized language models. We first formally introduce the task
of learning from personalized human feedback and explain why vanilla RLHF can
be problematic in this context. We then propose a general Personalized-RLHF
(P-RLHF) framework, which requires one to jointly learn a user model and a
language (or reward) model. The user model takes in user information and
outputs user representations. Its structure encodes our assumptions about user
preferences underlying the feedback data. We develop new learning objectives
for personalized reward modeling and personalized Direct Preference
Optimization. To demonstrate the efficacy of our method, we test it on
real-world text summarization data with annotated preferences and annotator
information. We fine-tune GPT-J 6B to obtain personalized language (and reward)
models, which outperform non-personalized models in terms of aligning with
individual preferences.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせて大きな言語モデルを微調整する、現在の支配的なフレームワークである。
しかし、このフレームワークで開発されたアルゴリズムの前提は、人間のフィードバックに符号化されたユーザの好みが多様である場合に問題となる。
本研究では,パーソナライズされた言語モデルを構築する手法の開発により,この問題に対処しようとする。
まず、個人化されたフィードバックから学習するタスクを正式に紹介し、なぜバニラRLHFが問題となるのかを説明する。
次に、ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHF(P-RLHF)フレームワークを提案する。
ユーザモデルはユーザ情報を取り込み、ユーザ表現を出力する。
その構造は、フィードバックデータに基づくユーザの好みに関する仮定をエンコードします。
我々はパーソナライズされた報酬モデリングとパーソナライズされた直接選好最適化のための新しい学習目標を開発した。
本手法の有効性を示すために,アノテーション付き選好情報と注釈情報を用いた実世界のテキスト要約データを用いてテストを行った。
GPT-J 6Bを微調整してパーソナライズされた言語(と報酬)モデルを得る。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Optimizing Data Delivery: Insights from User Preferences on Visuals, Tables, and Text [59.68239795065175]
ユーザが質問を提示するユーザスタディを実施し、何を見たいのかを尋ねます。
ユーザの個人的特性が、彼らが好むデータ出力に影響を与えることを確認するために、このデータを使用します。
論文 参考訳(メタデータ) (2024-11-12T00:24:31Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - LLMs + Persona-Plug = Personalized LLMs [41.60364110693824]
パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。
これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。
そこで我々は,LLMモデルを提案する。軽量なプラグインユーザ埋め込みモジュールを用いて,過去の状況をすべてモデル化し,個人毎のユーザ固有の埋め込みを構築する。
論文 参考訳(メタデータ) (2024-09-18T11:54:45Z) - Orchestrating LLMs with Different Personalizations [28.344891363780576]
本稿では,大規模言語モデル(LLM)と個人の嗜好を一致させる新しいアプローチを提案する。
有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。
1つの特定の選好次元で訓練された専門的なLSMから始め、各トーケンレベルで出力をマージするブラックボックス法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:55:02Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Factual and Personalized Recommendations using Language Models and
Reinforcement Learning [38.96462170594542]
我々はP4LM(Compelling, Precise, Personalized, Preference-relevant Language Model)を開発した。
P4LMは、アイテムの特徴とその関連性を説明しながら、ユーザにアイテムを推奨する。
我々は、精度、魅力、パーソナライゼーションを測定する共同報酬関数を開発する。
論文 参考訳(メタデータ) (2023-10-09T21:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。