論文の概要: Automatic Pair Construction for Contrastive Post-training
- arxiv url: http://arxiv.org/abs/2310.02263v2
- Date: Wed, 3 Apr 2024 00:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:08:03.590752
- Title: Automatic Pair Construction for Contrastive Post-training
- Title(参考訳): コントラスト後トレーニングのための自動ペア構築
- Authors: Canwen Xu, Corby Rosset, Ethan C. Chau, Luciano Del Corro, Shweti Mahajan, Julian McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
- 参考スコア(独自算出の注目度): 57.57149781848383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment serves as an important step to steer large language models (LLMs) towards human preferences. In this paper, we propose an automatic way to construct contrastive data for LLM, using preference pairs from multiple models of varying strengths (e.g., InstructGPT, ChatGPT and GPT-4). We compare the contrastive techniques of SLiC and DPO to SFT baselines and find that DPO provides a step-function improvement even after continuing SFT saturates. We also explore a data curriculum learning scheme for contrastive post-training, which starts by learning from "easier" pairs and transitioning to "harder" ones, which further improves alignment. Finally, we scale up our experiments to train with more data and larger models like Orca. Remarkably, our automatic contrastive post-training further improves the performance of Orca, already a state-of-the-art instruction learning model tuned with GPT-4 outputs, to outperform ChatGPT.
- Abstract(参考訳): アライメントは、大きな言語モデル(LLM)を人間の好みに向けるための重要なステップとなる。
本稿では, 異なる強度のモデル(例えば, InstructGPT, ChatGPT, GPT-4)から選好ペアを用いて, LLMのコントラストデータを構築する方法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラム学習手法についても検討し、"より簡単"なペアから学習し、"より硬い"ものへ移行することで、アライメントをさらに改善する。
最後に、実験をスケールアップして、より多くのデータとOrcaのような大きなモデルでトレーニングします。
注目すべきは、自動コントラストポストトレーニングにより、既にGPT-4出力をチューニングした最先端の指導学習モデルであるOrcaの性能が向上し、ChatGPTより優れることである。
関連論文リスト
- LIONs: An Empirically Optimized Approach to Align Language Models [31.225180404295536]
教師付き微調整,オフライン選好学習,オンライン選好学習からなる3段階学習パイプライン上で厳密な分析を行う。
我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能を大幅に向上できることを見出した。
論文 参考訳(メタデータ) (2024-07-09T04:34:39Z) - Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。
GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。
アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-01T04:25:26Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - LAB: Large-Scale Alignment for ChatBots [13.885153809482006]
LAB (Large-scale Alignment for chatBots) は,大規模言語モデル(LLM)訓練における命令調整フェーズにおけるスケーラビリティの課題を克服するために設計された,新しい方法論である。
従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-02T03:48:37Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。