論文の概要: TED: Accelerate Model Training by Internal Generalization
- arxiv url: http://arxiv.org/abs/2405.03228v2
- Date: Mon, 19 Aug 2024 14:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:48:22.501121
- Title: TED: Accelerate Model Training by Internal Generalization
- Title(参考訳): TED: 内部一般化によるモデルトレーニングの高速化
- Authors: Jinying Xiao, Ping Li, Jie Nie,
- Abstract要約: 大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。
本研究では,高プルーニング比下でのオーバーフィッティングの課題に対処するTEDプルーニングを提案する。
- 参考スコア(独自算出の注目度): 19.336762953352956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated strong performance in recent years, but the high cost of training drives the need for efficient methods to compress dataset sizes. We propose TED pruning, a method that addresses the challenge of overfitting under high pruning ratios by quantifying the model's ability to improve performance on pruned data while fitting retained data, known as Internal Generalization (IG). TED uses an optimization objective based on Internal Generalization Distance (IGD), measuring changes in IG before and after pruning to align with true generalization performance and achieve implicit regularization. The IGD optimization objective was verified to allow the model to achieve the smallest upper bound on generalization error. The impact of small mask fluctuations on IG is studied through masks and Taylor approximation, and fast estimation of IGD is enabled. In analyzing continuous training dynamics, the prior effect of IGD is validated, and a progressive pruning strategy is proposed. Experiments on image classification, natural language understanding, and large language model fine-tuning show TED achieves lossless performance with 60-70\% of the data. Upon acceptance, our code will be made publicly available.
- Abstract(参考訳): 大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。
内部一般化(IG)と呼ばれる保持データに適合しながら、刈り取られたデータの性能を向上するモデルの能力を定量化することで、高い刈り取り率で過度に適合するという課題に対処するTEDプルーニングを提案する。
TEDでは、内部一般化距離(IGD)に基づく最適化目標を用いて、プルーニング前後のIGの変化を測定し、真の一般化性能と整合し、暗黙の正規化を実現する。
IGD最適化の目的は、モデルが一般化誤差の最小上限を達成するために検証された。
小型マスク変動がIGに与える影響をマスクとテイラー近似を用いて研究し、IGDの高速推定を可能にする。
連続訓練力学の解析において、IGDの事前効果が検証され、進行的刈り取り戦略が提案される。
画像分類、自然言語理解、大規模言語モデルの微調整実験により、TEDはデータの60~70倍のロスレス性能を達成した。
受け入れ次第、私たちのコードは公開されます。
関連論文リスト
- Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T06:57:37Z) - Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Adversarial Style Augmentation for Domain Generalization [41.72506801753435]
本稿では,より効率的な統計摂動を発生させることにより,より広いスタイル空間を探索する,新しいAdrial Style Augmentation (ASA)手法を提案する。
ASA の応用を容易にするため,プラグイン・アンド・プレイ方式で ASA メソッドをインスタンス化するシンプルなモジュールである AdvStyle を設計した。
本手法は,PACSデータセット上での単一ソース一般化条件下での競合よりも優れていた。
論文 参考訳(メタデータ) (2023-01-30T03:52:16Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - A Simple Baseline for Semi-supervised Semantic Segmentation with Strong
Data Augmentation [74.8791451327354]
セマンティックセグメンテーションのためのシンプルで効果的な半教師付き学習フレームワークを提案する。
単純な設計とトレーニングのテクニックのセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。
本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2021-04-15T06:01:39Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。