論文の概要: LIONs: An Empirically Optimized Approach to Align Language Models
- arxiv url: http://arxiv.org/abs/2407.06542v1
- Date: Tue, 9 Jul 2024 04:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:15:33.003152
- Title: LIONs: An Empirically Optimized Approach to Align Language Models
- Title(参考訳): LIONs: 言語モデルに対する経験的に最適化されたアプローチ
- Authors: Xiao Yu, Qingyang Wu, Yu Li, Zhou Yu,
- Abstract要約: 教師付き微調整,オフライン選好学習,オンライン選好学習からなる3段階学習パイプライン上で厳密な分析を行う。
我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能を大幅に向上できることを見出した。
- 参考スコア(独自算出の注目度): 31.225180404295536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment is a crucial step to enhance the instruction-following and conversational abilities of language models. Despite many recent work proposing new algorithms, datasets, and training pipelines, there is a lack of comprehensive studies measuring the impact of various design choices throughout the whole training process. We first conduct a rigorous analysis over a three-stage training pipeline consisting of supervised fine-tuning, offline preference learning, and online preference learning. We have found that using techniques like sequence packing, loss masking in SFT, increasing the preference dataset size in DPO, and online DPO training can significantly improve the performance of language models. We then train from Gemma-2b-base and LLama-3-8b-base, and find that our best models exceed the performance of the official instruct models tuned with closed-source data and algorithms. Our code and models can be found at https://github.com/Columbia-NLP-Lab/LionAlignment.
- Abstract(参考訳): アライメントは、言語モデルの命令追従能力と会話能力を強化するための重要なステップである。
新たなアルゴリズム、データセット、トレーニングパイプラインを提案する最近の多くの作業にもかかわらず、トレーニングプロセス全体を通してさまざまな設計選択の影響を測定する包括的な研究が欠如している。
まず、教師付き微調整、オフライン選好学習、オンライン選好学習からなる3段階の学習パイプラインについて厳密な分析を行う。
我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。
次に、Gemma-2bベースとLLama-3-8bベースからトレーニングを行い、クローズドソースデータとアルゴリズムで調整された公式インストラクションモデルの性能より優れたモデルを見つける。
私たちのコードとモデルは、https://github.com/Columbia-NLP-Lab/LionAlignment.orgにある。
関連論文リスト
- TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。
T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (2024-11-22T18:44:04Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。