論文の概要: Exploring Learning Complexity for Downstream Data Pruning
- arxiv url: http://arxiv.org/abs/2402.05356v1
- Date: Thu, 8 Feb 2024 02:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:44:13.276879
- Title: Exploring Learning Complexity for Downstream Data Pruning
- Title(参考訳): 下流データプルーニングのための学習複雑さの探索
- Authors: Wenyu Jiang, Zhenlong Liu, Zejian Xie, Songxin Zhang, Bingyi Jing,
Hongxin Wei
- Abstract要約: 本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.526877053855998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The over-parameterized pre-trained models pose a great challenge to
fine-tuning with limited computation resources. An intuitive solution is to
prune the less informative samples from the fine-tuning dataset. A series of
training-based scoring functions are proposed to quantify the informativeness
of the data subset but the pruning cost becomes non-negligible due to the heavy
parameter updating. For efficient pruning, it is viable to adapt the similarity
scoring function of geometric-based methods from training-based to
training-free. However, we empirically show that such adaption distorts the
original pruning and results in inferior performance on the downstream tasks.
In this paper, we propose to treat the learning complexity (LC) as the scoring
function for classification and regression tasks. Specifically, the learning
complexity is defined as the average predicted confidence of subnets with
different capacities, which encapsulates data processing within a converged
model. Then we preserve the diverse and easy samples for fine-tuning. Extensive
experiments with vision datasets demonstrate the effectiveness and efficiency
of the proposed scoring function for classification tasks. For the instruction
fine-tuning of large language models, our method achieves state-of-the-art
performance with stable convergence, outperforming the full training with only
10\% of the instruction dataset.
- Abstract(参考訳): 過剰パラメータの事前学習されたモデルは、限られた計算リソースで微調整する上で大きな課題となる。
直感的な解決策は、微調整データセットからあまり分かりにくいサンプルを抽出することだ。
トレーニングに基づく一連のスコアリング関数を提案して,データサブセットのインフォメーション性を定量化するが,プルーニングコストは重いパラメータの更新により無視できない。
効率的な刈り取りには,幾何学的手法の類似度スコアリング関数をトレーニングベースからトレーニングフリーに適応させることが不可欠である。
しかし,このような適応は元々の刈り取りを歪め,下流タスクの性能を低下させることを示した。
本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
具体的には、学習複雑性は、収束モデル内のデータ処理をカプセル化する異なる能力を持つサブネットの平均的な予測信頼度として定義される。
そして、細調整のための多様で簡単なサンプルを保存します。
視覚データセットを用いた広範囲な実験は、分類タスクにおけるスコアリング関数の有効性と効率を示す。
大規模言語モデルのインストラクションの微調整において,本手法は,インストラクションデータセットの10%しか持たないフルトレーニングを上回って,安定した収束で最先端のパフォーマンスを実現する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - RPLKG: Robust Prompt Learning with Knowledge Graph [11.893917358053004]
知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。
知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。
RPLKGはゼロショット学習に比べてパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-04-21T08:22:58Z) - On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。
そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。
我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8~100倍高速である。
論文 参考訳(メタデータ) (2022-11-16T18:53:52Z) - Dataset Condensation with Distribution Matching [30.571335208276246]
データセットの凝縮は、元々の大きなトレーニングセットを、はるかに小さな学習された合成セットに置き換えることを目的としている。
トレーニングコストを大幅に削減する,単純かつ効果的なデータセット凝縮手法を提案する。
その効率により、我々はより現実的で大規模なデータセットに適用し、洗練されたニューラルアーキテクチャを持つ。
論文 参考訳(メタデータ) (2021-10-08T15:02:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。