論文の概要: Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning
- arxiv url: http://arxiv.org/abs/2405.19462v2
- Date: Fri, 21 Jun 2024 12:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:16:56.811576
- Title: Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning
- Title(参考訳): クリティカルラーニング期間: 効率的なデータ処理のための早期トレーニングダイナミクスを活用する
- Authors: Everlyn Asiko Chimoto, Jay Gala, Orevaoghene Ahia, Julia Kreutzer, Bruce A. Bassett, Sara Hooker,
- Abstract要約: CAT(Checkpoints Across Time)と呼ばれる新しいデータ解析手法を提案する。
我々は、COMET-QE、LASER、LaBSEなど、いくつかのデータプルーニング技術に対してCATをベンチマークする。
英語-ドイツ語、英語-フランス語、英語-スワヒリ翻訳タスクに適用すると、CATは完全なデータセットと同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 9.106234291496884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation models are extremely data and compute-hungry. However, not all data points contribute equally to model training and generalization. Data pruning to remove the low-value data points has the benefit of drastically reducing the compute budget without significant drop in model performance. In this paper, we propose a new data pruning technique: Checkpoints Across Time (CAT), that leverages early model training dynamics to identify the most relevant data points for model performance. We benchmark CAT against several data pruning techniques including COMET-QE, LASER and LaBSE. We find that CAT outperforms the benchmarks on Indo-European languages on multiple test sets. When applied to English-German, English-French and English-Swahili translation tasks, CAT achieves comparable performance to using the full dataset, while pruning up to 50% of training data. We inspect the data points that CAT selects and find that it tends to favour longer sentences and sentences with unique or rare words.
- Abstract(参考訳): ニューラルマシン翻訳モデルは、非常にデータと計算能力が高い。
しかし、全てのデータポイントがモデルトレーニングと一般化に等しく寄与するわけではない。
低値のデータポイントを取り除くためのデータプルーニングは、モデルの性能を大幅に低下させることなく、計算予算を大幅に削減する利点がある。
本稿では、初期モデルトレーニングのダイナミクスを活用して、モデル性能の最も関連性の高いデータポイントを識別する新しいデータプルーニング手法であるチェックポイントアクロスタイム(CAT)を提案する。
我々は、COMET-QE、LASER、LaBSEなど、いくつかのデータプルーニング技術に対してCATをベンチマークする。
CAT は Indo-European 言語のベンチマークを複数のテストセットで上回ります。
英語-ドイツ語、英語-フランス語、英語-スワヒリの翻訳タスクに適用すると、CATはトレーニングデータの最大50%をプルーニングしながら、完全なデータセットを使用するのに匹敵するパフォーマンスを達成する。
我々は、CATが選択したデータポイントを検査し、それよりも長い文や、ユニークな単語や稀な単語が好まれる傾向にあることを示す。
関連論文リスト
- Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。