論文の概要: Automatic Pruning of Fine-tuning Datasets for Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2407.08887v1
- Date: Thu, 11 Jul 2024 22:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:26:19.075843
- Title: Automatic Pruning of Fine-tuning Datasets for Transformer-based Language Models
- Title(参考訳): 変圧器に基づく言語モデルのための微調整データセットの自動抽出
- Authors: Mohammadreza Tayaranian, Seyyed Hasan Mozafari, Brett H. Meyer, James J. Clark, Warren J. Gross,
- Abstract要約: 微調整タスクのトレーニングセットを対象とした自動データセット解析手法を提案する。
提案手法は,データセットのプルーニングに使用する複数のサブセットを提供する。
5つの下流タスクと2つの言語モデルの実験は、平均して、優勝チケットのサブセットを微調整すると、モデルの評価性能が0.1%上昇することを示している。
- 参考スコア(独自算出の注目度): 13.340191056212692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models have shown state-of-the-art performance on a variety of natural language understanding tasks. To achieve this performance, these models are first pre-trained on general corpus and then fine-tuned on downstream tasks. Previous work studied the effect of pruning the training set of the downstream tasks on the performance of the model on its evaluation set. In this work, we propose an automatic dataset pruning method for the training set of fine-tuning tasks. Our method is based on the model's success rate in correctly classifying each training data point. Unlike previous work which relies on user feedback to determine subset size, our method automatically extracts training subsets that are adapted for each pair of model and fine-tuning task. Our method provides multiple subsets for use in dataset pruning that navigate the trade-off between subset size and evaluation accuracy. Our largest subset, which we also refer to as the winning ticket subset, is on average $3 \times$ smaller than the original training set of the fine-tuning task. Our experiments on 5 downstream tasks and 2 language models show that, on average, fine-tuning on the winning ticket subsets results in a $0.1 \%$ increase in the evaluation performance of the model.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、様々な自然言語理解タスクにおいて最先端のパフォーマンスを示している。
この性能を達成するために、これらのモデルはまず一般コーパスで事前訓練され、その後下流タスクで微調整される。
従来の研究は、下流タスクのトレーニングセットがモデルの性能および評価セットに与える影響について研究した。
そこで本研究では,微調整タスクのトレーニングセットを対象とした自動データセットプルーニング手法を提案する。
本手法は,各トレーニングデータポイントを正しく分類する際のモデルの成功率に基づく。
サブセットサイズを決定するためにユーザフィードバックに頼っていた従来の作業とは異なり,本手法では,各モデルに適応したトレーニングサブセットを自動的に抽出する。
本手法は,データセットプルーニングにおいて,サブセットサイズと評価精度のトレードオフをナビゲートする複数のサブセットを提供する。
私たちの最大のサブセットは、優勝チケットサブセットとも呼ばれており、ファインチューニングタスクの元々のトレーニングセットよりも平均$3 \times$小さいです。
5つの下流タスクと2つの言語モデルに対する実験により、平均して当選チケットサブセットを微調整すると、モデルの評価性能が0.1 %以上向上することが示された。
関連論文リスト
- ImageNet-RIB Benchmark: Large Pre-Training Datasets Don't Guarantee Robustness after Fine-Tuning [30.422932548359952]
我々は、新しい堅牢な微調整ベンチマーク ImageNet-RIB (Robustness Inheritance Benchmark) を導入する。
ベンチマークは関連するが、個別の(ダウンストリーム)タスクで構成されている。
連続学習法であるEWCとLwFは微調整後の堅牢性を維持していることがわかった。
論文 参考訳(メタデータ) (2024-10-28T22:33:22Z) - Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach [17.79010397902909]
目的タスクに対する言語モデル(LM)の微調整の問題について,$n$補助タスクの情報を用いて最適に検討する。
この問題には、NLPにおけるターゲット命令チューニングや、チェーン・オブ・ファインタニングにおけるデータ選択など、幅広い応用がある。
繰り返し学習せずにモデル微調整性能を推定する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-28T21:26:50Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。