論文の概要: Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation
- arxiv url: http://arxiv.org/abs/2402.11907v2
- Date: Thu, 15 Aug 2024 17:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:53:22.306474
- Title: Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation
- Title(参考訳): 自己回帰型プロンプト蒸留による直接大言語モデルアライメント
- Authors: Aiwei Liu, Haoping Bai, Zhiyun Lu, Xiang Kong, Simon Wang, Jiulong Shan, Meng Cao, Lijie Wen,
- Abstract要約: コントラッシブ・プロンプト・ペア下での応答対の出力確率を用いて応答選好を評価する手法を提案する。
そこで本研究では,DLMA(Direct Large Model Alignment)の自動アライメント手法を提案する。
実験段階において,本手法は人手による好みデータに頼ることなく,textttRLHF法を超えることができる。
- 参考スコア(独自算出の注目度): 45.21355506181213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human expectations without human-annotated preference data is an important problem. In this paper, we propose a method to evaluate the response preference by using the output probabilities of response pairs under contrastive prompt pairs, which could achieve better performance on LLaMA2-7B and LLaMA2-13B compared to RLAIF. Based on this, we propose an automatic alignment method, Direct Large Model Alignment (DLMA). First, we use contrastive prompt pairs to automatically generate preference data. Then, we continue to evaluate the generated preference data using contrastive prompt pairs and calculate a self-rewarding score. Finally, we use the DPO algorithm to effectively align LLMs by combining this self-rewarding score. In the experimental stage, our DLMA method could surpass the \texttt{RLHF} method without relying on human-annotated preference data.
- Abstract(参考訳): 人手による好みデータを持たない大規模言語モデル(LLM)を人間の期待に合わせることは重要な問題である。
本稿では,RLAIFと比較してLLaMA2-7BとLLaMA2-13Bの性能が向上し,応答対の出力確率を用いて応答選好を評価する手法を提案する。
そこで本研究では,DLMA (Direct Large Model Alignment) の自動アライメント手法を提案する。
まず、コントラスト的なプロンプトペアを使用して、好みデータを自動的に生成する。
そして、コントラスト的なプロンプトペアを用いて生成した嗜好データを評価し、自己回帰スコアを算出する。
最後に、この自己回帰スコアを組み合わせることで、DPOアルゴリズムを用いてLLMを効果的に調整する。
実験段階において, DLMA法は人手による好みデータに頼らずに, texttt{RLHF}法を超えることができた。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
本稿では,最も情報に富む応答ペアの獲得に焦点をあてた,高品質なトレーニングデータセットのサンプリング戦略を提案する。
実験結果から, 異なる応答対を選択することにより, LLMの直列化が促進されることが示唆された。
以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Offline Regularised Reinforcement Learning for Large Language Models Alignment [33.483481840098925]
我々はフレームワークと関連するアルゴリズムとしてDRO(emphDirect RewardOptimization)を提案する。
DROは、様々な方法で実装できる単純な平均2乗の目的を使用する。
論文 参考訳(メタデータ) (2024-05-29T14:11:29Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。