論文の概要: ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference
- arxiv url: http://arxiv.org/abs/2312.02554v2
- Date: Mon, 26 Feb 2024 08:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:01:14.594260
- Title: ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference
- Title(参考訳): ULMA:人間の実証とポイントワイズを考慮した統一言語モデルアライメント
- Authors: Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu, Guannan
Zhang
- Abstract要約: 典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
- 参考スコア(独自算出の注目度): 16.73260713938154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Aligning language models to human expectations, e.g., being helpful and
harmless, has become a pressing challenge for large language models. A typical
alignment procedure consists of supervised fine-tuning and preference learning.
Most preference learning methods, such as RLHF and DPO, depend on pairwise
preference data, which inadequately address scenarios where human feedback is
point-wise, leading to potential information loss and suboptimal performance.
Addressing this gap, we introduce Point-wise Direct Preference Optimization, a
novel preference learning method designed to harness point-wise feedback
effectively. Our work also uncovers a novel connection between supervised
fine-tuning and point-wise preference learning, culminating in Unified Language
Model Alignment, a single-step method that unifies the alignment with human
demonstrations and point-wise preferences. Extensive experiments on point-wise
preference datasets with binary or continuous labels validate the effectiveness
of our methods. Our code and a new dataset with high-quality demonstration
samples on harmlessness are released.
- Abstract(参考訳): 言語モデルを人間の期待に合わせること、例えば、便利で無害であることは、大きな言語モデルにとって大きな課題となっている。
典型的なアライメント手順は教師付き微調整と選好学習からなる。
RLHFやDPOのようなほとんどの選好学習手法は、人間のフィードバックがポイントワイズであるシナリオに不適切な対処を行うペアワイズ選好データに依存しており、潜在的な情報損失と準最適性能をもたらす。
このギャップに対処し,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるポイントワイズ直接選好最適化を提案する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たな結びつきを明らかにし、統一言語モデルアライメント(Unified Language Model Alignment)に到達した。
2進ラベルまたは連続ラベル付きポイントワイド選好データセットの大規模な実験により,本手法の有効性が検証された。
私たちのコードと、ハイクオリティなデモサンプルを備えた新しいデータセットがリリースされています。
関連論文リスト
- MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Active Preference Learning for Large Language Models [13.211063836237468]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Personalized Language Modeling from Personalized Human Feedback [55.458647587228185]
個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - RecExplainer: Aligning Large Language Models for Recommendation Model
Interpretability [53.76682562935373]
本稿では,大規模言語モデルを代理モデルとして用いて,推薦システムに対する新しいモデル解釈手法を提案する。
具体的には,行動アライメント,意図アライメント,ハイブリッドアライメントという3つのアライメント手法を導入する。
提案手法により,LLMはレコメンデーションモデルのパターンを理解し,信頼性の高いレコメンデーション説明を生成することができる。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Reformulating Sequential Recommendation: Learning Dynamic User Interest
with Content-enriched Language Modeling [6.52491975632466]
本稿では、事前学習した言語モデルの意味理解機能を活用してパーソナライズされたレコメンデーションを生成するLANCERを提案する。
我々のアプローチは、言語モデルとレコメンデーションシステムの間のギャップを埋め、より人間的なレコメンデーションを生み出します。
論文 参考訳(メタデータ) (2023-09-19T08:54:47Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。