論文の概要: ULMA: Unified Language Model Alignment with Demonstration and Point-wise
Human Preference
- arxiv url: http://arxiv.org/abs/2312.02554v1
- Date: Tue, 5 Dec 2023 07:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:29:35.119116
- Title: ULMA: Unified Language Model Alignment with Demonstration and Point-wise
Human Preference
- Title(参考訳): ULMA:Demonstration と Point-wise Human Preferenceによる統一言語モデルアライメント
- Authors: Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu, Guannan
Zhang
- Abstract要約: 最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。
まず、ポイントワイズDPOと呼ばれる選好学習手法を開発し、ポイントワイズ選好データに対処する。
教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方に統一的な枠組みを構築することができる。
- 参考スコア(独自算出の注目度): 16.73260713938154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language model alignment is a cutting-edge technique in large language model
training to align the model output to user's intent, e.g., being helpful and
harmless. Recent alignment framework consists of two steps: supervised
fine-tuning with demonstration data and preference learning with human
preference data. Previous preference learning methods, such as RLHF and DPO,
mainly focus on pair-wise preference data. However, in many real-world
scenarios where human feedbacks are intrinsically point-wise, these methods
will suffer from information loss or even fail. To fill this gap, in this
paper, we first develop a preference learning method called point-wise DPO to
tackle point-wise preference data. Further revelation on the connection between
supervised fine-tuning and point-wise preference learning enables us to develop
a unified framework for both human demonstration and point-wise preference
data, which sheds new light on the construction of preference dataset.
Extensive experiments on point-wise datasets with binary or continuous labels
demonstrate the superior performance and efficiency of our proposed methods. A
new dataset with high-quality demonstration samples on harmlessness is
constructed and made publicly available.
- Abstract(参考訳): 言語モデルのアライメント(Language model alignment)は、大規模言語モデルのトレーニングにおいて、モデルの出力をユーザの意図に合わせるための最先端のテクニックである。
最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。
RLHFやDPOといった従来の選好学習手法は主にペアワイド選好データに重点を置いている。
しかし、人間のフィードバックが本質的にポイントワイズな現実のシナリオでは、これらの手法は情報損失や失敗に悩まされる。
本稿では,このギャップを埋めるため,まずポイントワイズdpoと呼ばれる選好学習法を開発し,ポイントワイズ選好データを取り扱う。
教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方のための統一的なフレームワークを開発することができ、選好データセットの構築に新たな光を当てることができる。
二項ラベルや連続ラベルを用いたポイントワイズデータセットの広範な実験により,提案手法の性能と効率が示された。
有害性に関する高品質なデモサンプルを備えた新しいデータセットを構築し、公開している。
関連論文リスト
- Latent Distance Guided Alignment Training for Large Language Models [0.0]
外部アノテーションを頼らずにアライメントの改善を追求するために,潜在距離ガイドアライメントトレーニング(LD-Align)を導入する。
このアプローチは、潜在空間からのガイダンスを用いて、高品質な教師付き微調整データセットとモデルを整合させる。
我々は,DPOに基づくアライメントトレーニングを誘導するために,潜時空間におけるサンプルペア間の距離を利用する。
論文 参考訳(メタデータ) (2024-04-09T15:33:09Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Active Preference Learning for Large Language Models [13.211063836237468]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Personalized Language Modeling from Personalized Human Feedback [55.458647587228185]
個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - RecExplainer: Aligning Large Language Models for Recommendation Model
Interpretability [53.76682562935373]
本稿では,大規模言語モデルを代理モデルとして用いて,推薦システムに対する新しいモデル解釈手法を提案する。
具体的には,行動アライメント,意図アライメント,ハイブリッドアライメントという3つのアライメント手法を導入する。
提案手法により,LLMはレコメンデーションモデルのパターンを理解し,信頼性の高いレコメンデーション説明を生成することができる。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。