論文の概要: ULMA: Unified Language Model Alignment with Demonstration and Point-wise
Human Preference
- arxiv url: http://arxiv.org/abs/2312.02554v1
- Date: Tue, 5 Dec 2023 07:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:29:35.119116
- Title: ULMA: Unified Language Model Alignment with Demonstration and Point-wise
Human Preference
- Title(参考訳): ULMA:Demonstration と Point-wise Human Preferenceによる統一言語モデルアライメント
- Authors: Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu, Guannan
Zhang
- Abstract要約: 最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。
まず、ポイントワイズDPOと呼ばれる選好学習手法を開発し、ポイントワイズ選好データに対処する。
教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方に統一的な枠組みを構築することができる。
- 参考スコア(独自算出の注目度): 16.73260713938154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language model alignment is a cutting-edge technique in large language model
training to align the model output to user's intent, e.g., being helpful and
harmless. Recent alignment framework consists of two steps: supervised
fine-tuning with demonstration data and preference learning with human
preference data. Previous preference learning methods, such as RLHF and DPO,
mainly focus on pair-wise preference data. However, in many real-world
scenarios where human feedbacks are intrinsically point-wise, these methods
will suffer from information loss or even fail. To fill this gap, in this
paper, we first develop a preference learning method called point-wise DPO to
tackle point-wise preference data. Further revelation on the connection between
supervised fine-tuning and point-wise preference learning enables us to develop
a unified framework for both human demonstration and point-wise preference
data, which sheds new light on the construction of preference dataset.
Extensive experiments on point-wise datasets with binary or continuous labels
demonstrate the superior performance and efficiency of our proposed methods. A
new dataset with high-quality demonstration samples on harmlessness is
constructed and made publicly available.
- Abstract(参考訳): 言語モデルのアライメント(Language model alignment)は、大規模言語モデルのトレーニングにおいて、モデルの出力をユーザの意図に合わせるための最先端のテクニックである。
最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。
RLHFやDPOといった従来の選好学習手法は主にペアワイド選好データに重点を置いている。
しかし、人間のフィードバックが本質的にポイントワイズな現実のシナリオでは、これらの手法は情報損失や失敗に悩まされる。
本稿では,このギャップを埋めるため,まずポイントワイズdpoと呼ばれる選好学習法を開発し,ポイントワイズ選好データを取り扱う。
教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方のための統一的なフレームワークを開発することができ、選好データセットの構築に新たな光を当てることができる。
二項ラベルや連続ラベルを用いたポイントワイズデータセットの広範な実験により,提案手法の性能と効率が示された。
有害性に関する高品質なデモサンプルを備えた新しいデータセットを構築し、公開している。
関連論文リスト
- Aligning Visual Contrastive learning models via Preference Optimization [0.9438963196770565]
本稿では,複雑な概念を分解するために,優先度最適化(PO)を用いたコントラスト学習モデルの学習方法を提案する。
提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。
特に、CLIPのような対照的なモデルでよく見られる、タイポグラフィー攻撃に対するモデル堅牢性の向上に焦点を当てる。
さらに, 性別の理解を阻害し, 性別の偏見を緩和するために本手法を適用し, センシティブな属性をより微妙に制御する。
論文 参考訳(メタデータ) (2024-11-12T08:14:54Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Investigating on RLHF methodology [0.0]
本稿では,人間の嗜好をシミュレートする選好モデル(Preference Model)の訓練の特徴と,最良の結果を達成する上で不可欠な方法や詳細について論じる。
また、強化学習(Reinforcement Learning)を用いて大規模言語モデルを微調整し、直面した課題と克服方法を説明する。
論文 参考訳(メタデータ) (2024-10-02T17:46:22Z) - Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora [4.008122785948581]
言語における曖昧さは、より強化された言語モデルを開発する上での課題である。
本稿では,これらのデータセットを直接トレーニングしたプロキシモデルを活用することで,アノテーション付きデータセットを前処理するセルフキュレーション手法を提案する。
提案手法は,データセット内の曖昧なアノテーションを自動的に検出し,削除することにより,嗜好学習を強化する。
論文 参考訳(メタデータ) (2024-08-23T02:27:14Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。