論文の概要: Contrastive Post-training Large Language Models on Data Curriculum
- arxiv url: http://arxiv.org/abs/2310.02263v1
- Date: Tue, 3 Oct 2023 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:49:29.407848
- Title: Contrastive Post-training Large Language Models on Data Curriculum
- Title(参考訳): データカリキュラムにおける大規模言語モデル学習の対比
- Authors: Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian
McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao
- Abstract要約: 複数のモデルから選好ペアを自動的に構築することで、アライメントのための対照的なポストトレーニング手法を検討する。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
対照的にポストトレーニングは、既にGPT-4出力をチューニングした最先端の教育学習モデルであるOrcaの性能をさらに向上させ、ChatGPTよりも優れている。
- 参考スコア(独自算出の注目度): 62.24656753529541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment serves as an important step to steer large language models (LLMs)
towards human preferences. In this paper, we explore contrastive post-training
techniques for alignment by automatically constructing preference pairs from
multiple models of varying strengths (e.g., InstructGPT, ChatGPT and GPT-4). We
carefully compare the contrastive techniques of SLiC and DPO to SFT baselines
and find that DPO provides a step-function improvement even after continueing
SFT saturates. We also explore a data curriculum learning scheme for
contrastive post-training, which starts by learning from "easier" pairs and
transitioning to "harder" ones, which further improves alignment. Finally, we
scale up our experiments to train with more data and larger models like Orca.
Remarkably, contrastive post-training further improves the performance of Orca,
already a state-of-the-art instruction learning model tuned with GPT-4 outputs,
to exceed that of ChatGPT.
- Abstract(参考訳): アライメントは大きな言語モデル(LLM)を人間の好みに向けるための重要なステップとなる。
本稿では,様々な強度のモデル(例えばinstructgpt,chatgpt,gpt-4)から選択ペアを自動的に構築することにより,アライメントのための対比後訓練手法を検討する。
我々はSLiCとDPOの対比手法をSFTベースラインと慎重に比較し、DPOがSFT飽和度を継続してもステップ関数の改善をもたらすことを発見した。
また,「より簡単な」ペアから学習し,「より硬い」ペアへ移行し,さらにアライメントを改善することで,コントラスト付きポストトレーニングのためのデータカリキュラム学習手法について検討した。
最後に、実験をスケールアップして、より多くのデータとOrcaのような大きなモデルでトレーニングします。
対照的にポストトレーニングは、既にGPT-4出力をチューニングした最先端の教育学習モデルであるOrcaの性能をさらに向上させ、ChatGPTよりも優れている。
関連論文リスト
- LAB: Large-Scale Alignment for ChatBots [14.483190246540731]
LAB (Large-scale Alignment for chatBots) は,大規模言語モデル(LLM)訓練における命令調整フェーズにおけるスケーラビリティの課題を克服するために設計された,新しい方法論である。
従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-02T03:48:37Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Parametric Augmentation for Time Series Contrastive Learning [33.47157775532995]
我々は、堅牢で差別的な表現を学習する上でモデルを支援するポジティブな例を作成します。
通常、プリセットされた人間の直観は、関連するデータ拡張の選択を指示する。
本稿では、時系列表現学習を支援するために適応的に使用できるパラメトリック拡張型学習フレームワークAutoTCLを提案する。
論文 参考訳(メタデータ) (2024-02-16T03:51:14Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - ICLEF: In-Context Learning with Expert Feedback for Explainable Style
Transfer [24.046784201078292]
本稿では,ChatGPTのモデル蒸留による説明により,形式性スタイルの転送データセットを拡張・改善するためのフレームワークを提案する。
我々は9,960個の説明可能なフォーマルなスタイル転送インスタンス(e-AFCGY)のデータセットを用いて、現在のオープン分散命令チューニングモデルがタスクに対して不十分であることを示す。
人間の評価では、データに微調整されたChatGPTよりもはるかに小さいモデルが、専門家の好みとよく一致していることが示される。
論文 参考訳(メタデータ) (2023-09-15T17:41:14Z) - LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive
Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。
複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-29T15:59:51Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。