論文の概要: Extensive Self-Contrast Enables Feedback-Free Language Model Alignment
- arxiv url: http://arxiv.org/abs/2404.00604v1
- Date: Sun, 31 Mar 2024 08:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:40:27.622910
- Title: Extensive Self-Contrast Enables Feedback-Free Language Model Alignment
- Title(参考訳): Extensive Self-Contrastはフィードバックのない言語モデルのアライメントを可能にする
- Authors: Xiao Liu, Xixuan Song, Yuxiao Dong, Jie Tang,
- Abstract要約: 自己コントラスト(Self-Contrast)は、大規模な自己生成陰性を利用するフィードバックフリーな大規模言語モデルアライメント手法である。
教師付き微調整(SFT)ターゲットのみを用いて、Self-Contrastはトレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 29.268993281961695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has been a central technique for recent large language model (LLM) alignment. However, its heavy dependence on costly human or LLM-as-Judge preference feedback could stymie its wider applications. In this work, we introduce Self-Contrast, a feedback-free large language model alignment method via exploiting extensive self-generated negatives. With only supervised fine-tuning (SFT) targets, Self-Contrast leverages the LLM itself to generate massive diverse candidates, and harnesses a pre-trained embedding model to filter multiple negatives according to text similarity. Theoretically, we illustrate that in this setting, merely scaling negative responses can still effectively approximate situations with more balanced positive and negative preference annotations. Our experiments with direct preference optimization (DPO) on three datasets show that, Self-Contrast could consistently outperform SFT and standard DPO training by large margins. And as the number of self-generated negatives increases, the performance of Self-Contrast continues to grow. Code and data are available at https://github.com/THUDM/Self-Contrast.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は,最近の大規模言語モデル(LLM)のアライメントの中心的手法である。
しかし、コストのかかる人間やLSM-as-Judgeの好みのフィードバックに大きく依存しているため、より広範な応用が妨げられる可能性がある。
本研究では,フィードバックのない大規模言語モデルアライメント手法であるSelf-Contrastを紹介する。
教師付き微調整(SFT)ターゲットのみを用いて、Self-ContrastはLLM自体を利用して大量の多様な候補を生成し、トレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
理論的には、この設定では、単に負の反応をスケーリングするだけで、よりバランスの取れた正と負の好みのアノテーションで状況を効果的に近似することができる。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
そして、自己生成負の数が増加するにつれて、自己コントラストのパフォーマンスは増加し続けます。
コードとデータはhttps://github.com/THUDM/Self-Contrast.comで公開されている。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。