論文の概要: Exploring Learning Complexity for Downstream Data Pruning
- arxiv url: http://arxiv.org/abs/2402.05356v1
- Date: Thu, 8 Feb 2024 02:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:44:13.276879
- Title: Exploring Learning Complexity for Downstream Data Pruning
- Title(参考訳): 下流データプルーニングのための学習複雑さの探索
- Authors: Wenyu Jiang, Zhenlong Liu, Zejian Xie, Songxin Zhang, Bingyi Jing,
Hongxin Wei
- Abstract要約: 本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.526877053855998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The over-parameterized pre-trained models pose a great challenge to
fine-tuning with limited computation resources. An intuitive solution is to
prune the less informative samples from the fine-tuning dataset. A series of
training-based scoring functions are proposed to quantify the informativeness
of the data subset but the pruning cost becomes non-negligible due to the heavy
parameter updating. For efficient pruning, it is viable to adapt the similarity
scoring function of geometric-based methods from training-based to
training-free. However, we empirically show that such adaption distorts the
original pruning and results in inferior performance on the downstream tasks.
In this paper, we propose to treat the learning complexity (LC) as the scoring
function for classification and regression tasks. Specifically, the learning
complexity is defined as the average predicted confidence of subnets with
different capacities, which encapsulates data processing within a converged
model. Then we preserve the diverse and easy samples for fine-tuning. Extensive
experiments with vision datasets demonstrate the effectiveness and efficiency
of the proposed scoring function for classification tasks. For the instruction
fine-tuning of large language models, our method achieves state-of-the-art
performance with stable convergence, outperforming the full training with only
10\% of the instruction dataset.
- Abstract(参考訳): 過剰パラメータの事前学習されたモデルは、限られた計算リソースで微調整する上で大きな課題となる。
直感的な解決策は、微調整データセットからあまり分かりにくいサンプルを抽出することだ。
トレーニングに基づく一連のスコアリング関数を提案して,データサブセットのインフォメーション性を定量化するが,プルーニングコストは重いパラメータの更新により無視できない。
効率的な刈り取りには,幾何学的手法の類似度スコアリング関数をトレーニングベースからトレーニングフリーに適応させることが不可欠である。
しかし,このような適応は元々の刈り取りを歪め,下流タスクの性能を低下させることを示した。
本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
具体的には、学習複雑性は、収束モデル内のデータ処理をカプセル化する異なる能力を持つサブネットの平均的な予測信頼度として定義される。
そして、細調整のための多様で簡単なサンプルを保存します。
視覚データセットを用いた広範囲な実験は、分類タスクにおけるスコアリング関数の有効性と効率を示す。
大規模言語モデルのインストラクションの微調整において,本手法は,インストラクションデータセットの10%しか持たないフルトレーニングを上回って,安定した収束で最先端のパフォーマンスを実現する。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Finding High-Value Training Data Subset through Differentiable Convex
Programming [5.5180456567480896]
本稿では,トレーニングデータの高値部分集合を選択する問題について検討する。
重要なアイデアは、オンラインサブセット選択のための学習可能なフレームワークを設計することです。
このフレームワークを用いて,選択モデルとmlモデルのパラメータを共同で学習するオンライン交流最小化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-04-28T14:33:26Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。