論文の概要: Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization
- arxiv url: http://arxiv.org/abs/2402.14270v1
- Date: Thu, 22 Feb 2024 04:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:34:47.318307
- Title: Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization
- Title(参考訳): 牛を角から離す:ハードサンプル強調連続訓練はllm一般化を改善する
- Authors: Xuxi Chen, Zhendong Wang, Daouda Sow, Junjie Yang, Tianlong Chen,
Yingbin Liang, Mingyuan Zhou, Zhangyang Wang
- Abstract要約: 大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
- 参考スコア(独自算出の注目度): 165.98557106089777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly advancing arena of large language models (LLMs), a key
challenge is to enhance their capabilities amid a looming shortage of
high-quality training data. Our study starts from an empirical strategy for the
light continual training of LLMs using their original pre-training data sets,
with a specific focus on selective retention of samples that incur moderately
high losses. These samples are deemed informative and beneficial for model
refinement, contrasting with the highest-loss samples, which would be discarded
due to their correlation with data noise and complexity. We then formalize this
strategy into a principled framework of Instance-Reweighted Distributionally
Robust Optimization (IR-DRO). IR-DRO is designed to dynamically prioritize the
training focus on informative samples through an instance reweighting
mechanism, streamlined by a closed-form solution for straightforward
integration into established training protocols. Through rigorous
experimentation with various models and datasets, our findings indicate that
our sample-targeted methods significantly improve LLM performance across
multiple benchmarks, in both continual pre-training and instruction tuning
scenarios. Our codes are available at
https://github.com/VITA-Group/HardFocusTraining.
- Abstract(参考訳): 大規模言語モデル(llm)の急速に進展する分野において、高品質なトレーニングデータが不足している中で、その能力を高めることが重要な課題である。
本研究は,従来の事前学習データセットを用いたLCMの光連続的トレーニングの実証的戦略から始まり,中等度に高い損失を被るサンプルの選択的保持に着目した。
これらのサンプルは、データノイズや複雑性との相関から廃棄される最も損失の多いサンプルとは対照的に、モデルの改良に有益で有益であると考えられている。
次に、この戦略をインスタンス重み付け分散ロバスト最適化(IR-DRO)の原則的なフレームワークに定式化する。
IR-DROは、既存のトレーニングプロトコルに簡単に統合するためのクローズドフォームソリューションによって合理化されたインスタンス再重み付け機構を通じて、インフォメーションサンプルのトレーニングフォーカスを動的に優先順位付けするように設計されている。
様々なモデルとデータセットを厳密に実験した結果,本手法は連続的な事前学習と命令チューニングのシナリオにおいて,複数のベンチマークにおけるllm性能を著しく改善することが示唆された。
私たちのコードはhttps://github.com/vita-group/hardfocustrainingで利用できます。
関連論文リスト
- Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。