論文の概要: Extensive Self-Contrast Enables Feedback-Free Language Model Alignment
- arxiv url: http://arxiv.org/abs/2404.00604v1
- Date: Sun, 31 Mar 2024 08:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:40:27.622910
- Title: Extensive Self-Contrast Enables Feedback-Free Language Model Alignment
- Title(参考訳): Extensive Self-Contrastはフィードバックのない言語モデルのアライメントを可能にする
- Authors: Xiao Liu, Xixuan Song, Yuxiao Dong, Jie Tang,
- Abstract要約: 自己コントラスト(Self-Contrast)は、大規模な自己生成陰性を利用するフィードバックフリーな大規模言語モデルアライメント手法である。
教師付き微調整(SFT)ターゲットのみを用いて、Self-Contrastはトレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 29.268993281961695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has been a central technique for recent large language model (LLM) alignment. However, its heavy dependence on costly human or LLM-as-Judge preference feedback could stymie its wider applications. In this work, we introduce Self-Contrast, a feedback-free large language model alignment method via exploiting extensive self-generated negatives. With only supervised fine-tuning (SFT) targets, Self-Contrast leverages the LLM itself to generate massive diverse candidates, and harnesses a pre-trained embedding model to filter multiple negatives according to text similarity. Theoretically, we illustrate that in this setting, merely scaling negative responses can still effectively approximate situations with more balanced positive and negative preference annotations. Our experiments with direct preference optimization (DPO) on three datasets show that, Self-Contrast could consistently outperform SFT and standard DPO training by large margins. And as the number of self-generated negatives increases, the performance of Self-Contrast continues to grow. Code and data are available at https://github.com/THUDM/Self-Contrast.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は,最近の大規模言語モデル(LLM)のアライメントの中心的手法である。
しかし、コストのかかる人間やLSM-as-Judgeの好みのフィードバックに大きく依存しているため、より広範な応用が妨げられる可能性がある。
本研究では,フィードバックのない大規模言語モデルアライメント手法であるSelf-Contrastを紹介する。
教師付き微調整(SFT)ターゲットのみを用いて、Self-ContrastはLLM自体を利用して大量の多様な候補を生成し、トレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
理論的には、この設定では、単に負の反応をスケーリングするだけで、よりバランスの取れた正と負の好みのアノテーションで状況を効果的に近似することができる。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
そして、自己生成負の数が増加するにつれて、自己コントラストのパフォーマンスは増加し続けます。
コードとデータはhttps://github.com/THUDM/Self-Contrast.comで公開されている。
関連論文リスト
- Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文 参考訳(メタデータ) (2024-10-16T03:30:09Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。