論文の概要: Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping
- arxiv url: http://arxiv.org/abs/2402.07610v3
- Date: Thu, 27 Jun 2024 16:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 19:46:58.544419
- Title: Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping
- Title(参考訳): Step-On-Feet Tuning: ブートストラップによるLCMの自己アライメントのスケーリング
- Authors: Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao,
- Abstract要約: 自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
- 参考スコア(独自算出の注目度): 53.454408491386886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-alignment is an effective way to reduce the cost of human annotation while ensuring promising model capability. However, most current methods complete the data collection and training steps in a single round, which may overlook the continuously improving ability of self-aligned models. This gives rise to a key query: What if we do multi-time bootstrapping self-alignment? Does this strategy enhance model performance or lead to rapid degradation? In this paper, our pioneering exploration delves into the impact of bootstrapping self-alignment on large language models. Our findings reveal that bootstrapping self-alignment markedly surpasses the single-round approach, by guaranteeing data diversity from in-context learning. To further exploit the capabilities of bootstrapping, we investigate and adjust the training order of data, which yields improved performance of the model. Drawing on these findings, we propose Step-On-Feet Tuning (SOFT) which leverages model's continuously enhanced few-shot ability to boost zero or one-shot performance. Based on easy-to-hard training recipe, we propose SOFT+ which further boost self-alignment's performance. Our experiments demonstrate the efficiency of SOFT (SOFT+) across various classification and generation tasks, highlighting the potential of bootstrapping self-alignment on continually enhancing model alignment performance.
- Abstract(参考訳): 自己調整は、有望なモデル能力を確保しつつ、人間のアノテーションのコストを削減する効果的な方法である。
しかし、現在のほとんどの手法は単一のラウンドでデータ収集とトレーニングのステップを完了しており、自己整合モデルの継続的な改善能力を見落としている可能性がある。
マルチタイムで自己アライメントをブートストラップする場合はどうでしょう?
この戦略はモデルの性能を高めるのか、それとも急速な劣化につながるのか?
本稿では,大規模言語モデルにおける自己アライメントのブートストラップの影響について考察する。
この結果から,自己アライメントの自己アライメントは,コンテキスト内学習によるデータの多様性を保証することによって,シングルラウンドアプローチを著しく上回っていることが明らかとなった。
ブートストレッピングの能力をさらに活用するため,データのトレーニング順序を調査・調整し,モデルの性能向上を図った。
これらの知見に基づいて,モデルが継続的に強化した小ショット機能を活用し,ゼロまたはワンショットのパフォーマンスを向上させるステップオン・フェート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
実験では,SOFT(SOFT+)の多種多様な分類・生成タスクにおける効率を実証し,モデルアライメント性能を継続的に向上させる自己アライメントのブートストラップの可能性を強調した。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。