論文の概要: Contrastive Post-training Large Language Models on Data Curriculum
- arxiv url: http://arxiv.org/abs/2310.02263v1
- Date: Tue, 3 Oct 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:49:29.407848
- Title: Contrastive Post-training Large Language Models on Data Curriculum
- Title(参考訳): データカリキュラムにおける大規模言語モデル学習の対比
- Authors: Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian
McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao
- Abstract要約: 複数のモデルから選好ペアを自動的に構築することで、アライメントのための対照的なポストトレーニング手法を検討する。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
対照的にポストトレーニングは、既にGPT-4出力をチューニングした最先端の教育学習モデルであるOrcaの性能をさらに向上させ、ChatGPTよりも優れている。
- 参考スコア(独自算出の注目度): 62.24656753529541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment serves as an important step to steer large language models (LLMs)
towards human preferences. In this paper, we explore contrastive post-training
techniques for alignment by automatically constructing preference pairs from
multiple models of varying strengths (e.g., InstructGPT, ChatGPT and GPT-4). We
carefully compare the contrastive techniques of SLiC and DPO to SFT baselines
and find that DPO provides a step-function improvement even after continueing
SFT saturates. We also explore a data curriculum learning scheme for
contrastive post-training, which starts by learning from "easier" pairs and
transitioning to "harder" ones, which further improves alignment. Finally, we
scale up our experiments to train with more data and larger models like Orca.
Remarkably, contrastive post-training further improves the performance of Orca,
already a state-of-the-art instruction learning model tuned with GPT-4 outputs,
to exceed that of ChatGPT.
- Abstract(参考訳): アライメントは大きな言語モデル(LLM)を人間の好みに向けるための重要なステップとなる。
本稿では,様々な強度のモデル(例えばinstructgpt,chatgpt,gpt-4)から選択ペアを自動的に構築することにより,アライメントのための対比後訓練手法を検討する。
我々はSLiCとDPOの対比手法をSFTベースラインと慎重に比較し、DPOがSFT飽和度を継続してもステップ関数の改善をもたらすことを発見した。
また,「より簡単な」ペアから学習し,「より硬い」ペアへ移行し,さらにアライメントを改善することで,コントラスト付きポストトレーニングのためのデータカリキュラム学習手法について検討した。
最後に、実験をスケールアップして、より多くのデータとOrcaのような大きなモデルでトレーニングします。
対照的にポストトレーニングは、既にGPT-4出力をチューニングした最先端の教育学習モデルであるOrcaの性能をさらに向上させ、ChatGPTよりも優れている。
関連論文リスト
- Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - LIONs: An Empirically Optimized Approach to Align Language Models [31.225180404295536]
教師付き微調整,オフライン選好学習,オンライン選好学習からなる3段階学習パイプライン上で厳密な分析を行う。
我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。
論文 参考訳(メタデータ) (2024-07-09T04:34:39Z) - Phased Instruction Fine-Tuning for Large Language Models [12.037895935630882]
Phased IFT(Phased Instruction Fine-Tuning)を提案する。
GPT-4を用いて命令の難易度を評価し、命令データを難易度の高いサブセットに分割し、これらのサブセット上でモデルを逐次訓練する。
アルパカデータを用いたLlama-2 7B/13B/70B、Llama3 8/70B、Mistral-7Bモデルによる実験では、フェーズドIFTは1オフIFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-06-01T04:25:26Z) - LAB: Large-Scale Alignment for ChatBots [13.885153809482006]
LAB (Large-scale Alignment for chatBots) は,大規模言語モデル(LLM)訓練における命令調整フェーズにおけるスケーラビリティの課題を克服するために設計された,新しい方法論である。
従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-02T03:48:37Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。