Fugu-MT 論文翻訳(概要): Exploring Learning Complexity for Downstream Data Pruning

論文の概要: Exploring Learning Complexity for Downstream Data Pruning

arxiv url: http://arxiv.org/abs/2402.05356v1
Date: Thu, 8 Feb 2024 02:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 16:44:13.276879
Title: Exploring Learning Complexity for Downstream Data Pruning
Title（参考訳）: 下流データプルーニングのための学習複雑さの探索
Authors: Wenyu Jiang, Zhenlong Liu, Zejian Xie, Songxin Zhang, Bingyi Jing, Hongxin Wei
Abstract要約: 本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
参考スコア（独自算出の注目度）: 9.526877053855998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The over-parameterized pre-trained models pose a great challenge to fine-tuning with limited computation resources. An intuitive solution is to prune the less informative samples from the fine-tuning dataset. A series of training-based scoring functions are proposed to quantify the informativeness of the data subset but the pruning cost becomes non-negligible due to the heavy parameter updating. For efficient pruning, it is viable to adapt the similarity scoring function of geometric-based methods from training-based to training-free. However, we empirically show that such adaption distorts the original pruning and results in inferior performance on the downstream tasks. In this paper, we propose to treat the learning complexity (LC) as the scoring function for classification and regression tasks. Specifically, the learning complexity is defined as the average predicted confidence of subnets with different capacities, which encapsulates data processing within a converged model. Then we preserve the diverse and easy samples for fine-tuning. Extensive experiments with vision datasets demonstrate the effectiveness and efficiency of the proposed scoring function for classification tasks. For the instruction fine-tuning of large language models, our method achieves state-of-the-art performance with stable convergence, outperforming the full training with only 10\% of the instruction dataset.
Abstract（参考訳）: 過剰パラメータの事前学習されたモデルは、限られた計算リソースで微調整する上で大きな課題となる。直感的な解決策は、微調整データセットからあまり分かりにくいサンプルを抽出することだ。トレーニングに基づく一連のスコアリング関数を提案して,データサブセットのインフォメーション性を定量化するが,プルーニングコストは重いパラメータの更新により無視できない。効率的な刈り取りには,幾何学的手法の類似度スコアリング関数をトレーニングベースからトレーニングフリーに適応させることが不可欠である。しかし,このような適応は元々の刈り取りを歪め,下流タスクの性能を低下させることを示した。本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。具体的には、学習複雑性は、収束モデル内のデータ処理をカプセル化する異なる能力を持つサブネットの平均的な予測信頼度として定義される。そして、細調整のための多様で簡単なサンプルを保存します。視覚データセットを用いた広範囲な実験は、分類タスクにおけるスコアリング関数の有効性と効率を示す。大規模言語モデルのインストラクションの微調整において,本手法は,インストラクションデータセットの10%しか持たないフルトレーニングを上回って,安定した収束で最先端のパフォーマンスを実現する。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々はポイントワイズ情報(PVI)に基づく効果的なデータ削減戦略を提案する。実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。我々は、以前英語のデータセットに限られていたPVIフレームワークを、さまざまな中国のNLPタスクやベースモデルに適用した。
論文参考訳（メタデータ） (2025-06-19T06:59:19Z)
Scale Efficient Training for Large Datasets [27.28640920242675]
低値サンプルを除去するために、SeTaはまずランダムプルーニングを行い、余剰サンプルを除去し、残りのサンプルを損失によって測定された学習困難に応じてクラスタ化する。 SeTaは、性能を維持したり改善したりしながら、トレーニングコストを最大50%削減する。
論文参考訳（メタデータ） (2025-03-17T17:13:43Z)
Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文参考訳（メタデータ） (2025-03-03T07:31:40Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Effective pruning of web-scale datasets based on complexity of concept clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文参考訳（メタデータ） (2024-01-09T14:32:24Z)
Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文参考訳（メタデータ） (2023-11-24T13:21:35Z)
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文参考訳（メタデータ） (2023-10-16T06:19:29Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
RPLKG: Robust Prompt Learning with Knowledge Graph [11.893917358053004]
知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。 RPLKGはゼロショット学習に比べてパフォーマンスが大幅に向上した。
論文参考訳（メタデータ） (2023-04-21T08:22:58Z)
On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8～100倍高速である。
論文参考訳（メタデータ） (2022-11-16T18:53:52Z)
Dataset Condensation with Distribution Matching [30.571335208276246]
データセットの凝縮は、元々の大きなトレーニングセットを、はるかに小さな学習された合成セットに置き換えることを目的としている。トレーニングコストを大幅に削減する,単純かつ効果的なデータセット凝縮手法を提案する。その効率により、我々はより現実的で大規模なデータセットに適用し、洗練されたニューラルアーキテクチャを持つ。
論文参考訳（メタデータ） (2021-10-08T15:02:30Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。