Fugu-MT 論文翻訳(概要): Efficient Model Finetuning for Text Classification via Data Filtering

論文の概要: Efficient Model Finetuning for Text Classification via Data Filtering

arxiv url: http://arxiv.org/abs/2207.14386v1
Date: Thu, 28 Jul 2022 21:43:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-01 12:43:22.737565
Title: Efficient Model Finetuning for Text Classification via Data Filtering
Title（参考訳）: データフィルタリングによるテキスト分類のための効率的なモデルファインタニング
Authors: Xu Ouyang, Shahina Mohd Azam Ansari, Felix Xiaozhu Lin, Yangfeng Ji
Abstract要約: トレーニング例によるモチベーションは、しばしば冗長であり、ストリーミング形式でサンプルをフィルタリングするアルゴリズムを設計する。我々のアルゴリズムは、必要なトレーニング例を5$times$まで削減するが、平均的な劣化は少ない。
参考スコア（独自算出の注目度）: 11.058786955754004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As model finetuning is central to the modern NLP, we set to maximize its efficiency. Motivated by training examples are often redundant, we design an algorithm that filters the examples in a streaming fashion. Our key techniques are two: (1) automatically determine a training loss threshold for skipping the backward propagation; and (2) maintain a meta predictor for further skipping the forward propagation. Incarnated as a three-stage process, on a diverse set of benchmarks our algorithm reduces the required training examples by up to 5$\times$ while only seeing minor degradation on average. Our method is effective even for as few as one training epoch, where each training example is encountered once. It is simple to implement and is compatible with the existing model finetuning optimizations such as layer freezing.
Abstract（参考訳）: モデルファインタニングは現代のNLPの中心であり、その効率を最大化する。トレーニング例によるモチベーションは、しばしば冗長であり、ストリーミング形式でサンプルをフィルタリングするアルゴリズムを設計する。提案手法は,(1)後方伝播をスキップするためのトレーニング損失閾値を自動的に決定する,(2)前方伝播をスキップするためのメタ予測器を維持する,の2つである。 3段階のプロセスとして実現された我々のアルゴリズムは、様々なベンチマークに基づいて、必要なトレーニング例を5$\times$まで削減します。本手法は,1回のトレーニングエポックでも有効であり,各トレーニング例に1回だけ遭遇する。実装は簡単で、層凍結のような既存のモデル微調整の最適化と互換性がある。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文参考訳（メタデータ） (2024-03-06T05:13:23Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
SwiftLearn: A Data-Efficient Training Method of Deep Learning Models using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文参考訳（メタデータ） (2023-11-25T22:51:01Z)
Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。モデルの内部構造ブロックを利用して効率を向上させることを提案する。従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文参考訳（メタデータ） (2023-10-24T01:36:20Z)
FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-10T12:53:48Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文参考訳（メタデータ） (2021-10-12T18:47:18Z)
Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。本手法は画像内情報と画像間情報の両方を利用する。トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文参考訳（メタデータ） (2021-04-01T08:09:26Z)
A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文参考訳（メタデータ） (2020-09-04T12:35:42Z)
A Novel DNN Training Framework via Data Sampling and Multi-Task Optimization [7.001799696806368]
DNNモデルをトレーニングするための新しいフレームワークを提案する。ランダムスプリッティングにより、総合的なトレーニングセットから複数のトレーニングセットと検証セットを生成する。トレーニングされたすべてのモデルの中で最高のパフォーマンスを出力し、すべてのペアから検証セット全体で全体の最高のパフォーマンスを出力します。
論文参考訳（メタデータ） (2020-07-02T10:58:57Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。