論文の概要: Personalized Language Modeling from Personalized Human Feedback
- arxiv url: http://arxiv.org/abs/2402.05133v1
- Date: Tue, 6 Feb 2024 04:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:55:36.155888
- Title: Personalized Language Modeling from Personalized Human Feedback
- Title(参考訳): パーソナライズされた人間のフィードバックからのパーソナライズド言語モデリング
- Authors: Xinyu Li, Zachary C. Lipton, Liu Leqi
- Abstract要約: 個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
- 参考スコア(独自算出の注目度): 55.458647587228185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is the current dominating
framework to fine-tune large language models to better align with human
preferences. However, the underlying premise of algorithms developed under this
framework can be problematic when user preferences encoded in human feedback
are diverse. In this work, we aim to address this problem by developing methods
for building personalized language models. We first formally introduce the task
of learning from personalized human feedback and explain why vanilla RLHF can
be problematic in this context. We then propose a general Personalized-RLHF
(P-RLHF) framework, which requires one to jointly learn a user model and a
language (or reward) model. The user model takes in user information and
outputs user representations. Its structure encodes our assumptions about user
preferences underlying the feedback data. We develop new learning objectives
for personalized reward modeling and personalized Direct Preference
Optimization. To demonstrate the efficacy of our method, we test it on
real-world text summarization data with annotated preferences and annotator
information. We fine-tune GPT-J 6B to obtain personalized language (and reward)
models, which outperform non-personalized models in terms of aligning with
individual preferences.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせて大きな言語モデルを微調整する、現在の支配的なフレームワークである。
しかし、このフレームワークで開発されたアルゴリズムの前提は、人間のフィードバックに符号化されたユーザの好みが多様である場合に問題となる。
本研究では,パーソナライズされた言語モデルを構築する手法の開発により,この問題に対処しようとする。
まず、個人化されたフィードバックから学習するタスクを正式に紹介し、なぜバニラRLHFが問題となるのかを説明する。
次に、ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHF(P-RLHF)フレームワークを提案する。
ユーザモデルはユーザ情報を取り込み、ユーザ表現を出力する。
その構造は、フィードバックデータに基づくユーザの好みに関する仮定をエンコードします。
我々はパーソナライズされた報酬モデリングとパーソナライズされた直接選好最適化のための新しい学習目標を開発した。
本手法の有効性を示すために,アノテーション付き選好情報と注釈情報を用いた実世界のテキスト要約データを用いてテストを行った。
GPT-J 6Bを微調整してパーソナライズされた言語(と報酬)モデルを得る。
関連論文リスト
- ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Learning Implicit User Profiles for Personalized Retrieval-Based Chatbot [29.053654530024083]
IMPChatは、ユーザのパーソナライズされた言語スタイルとパーソナライズされた好みを個別にモデリングすることで、暗黙のユーザプロファイルを学習することを目的としている。
ユーザのパーソナライズされた言語スタイルを学習するために,ユーザの過去の応答を利用して,浅い言語から深い言語モデルを構築する。
回答候補をそれぞれパーソナライズされた言語スタイルとパーソナライズされた好みとでマッチングし、2つのマッチング信号を融合して最終的なランキングスコアを決定する。
論文 参考訳(メタデータ) (2021-08-18T02:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。