論文の概要: Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for
Enhanced Dataset Pruning
- arxiv url: http://arxiv.org/abs/2311.13613v2
- Date: Thu, 21 Dec 2023 15:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:56:42.671993
- Title: Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for
Enhanced Dataset Pruning
- Title(参考訳): スパンニングトレーニングの進歩: データセットの強化のための時間的デュアルディープスコーリング(TDDS)
- Authors: Xin Zhang, Jiawei Du, Yunsong Li, Weiying Xie, Joey Tianyi Zhou
- Abstract要約: 我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
- 参考スコア(独自算出の注目度): 54.511055635704764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset pruning aims to construct a coreset capable of achieving performance
comparable to the original, full dataset. Most existing dataset pruning methods
rely on snapshot-based criteria to identify representative samples, often
resulting in poor generalization across various pruning and cross-architecture
scenarios. Recent studies have addressed this issue by expanding the scope of
training dynamics considered, including factors such as forgetting event and
probability change, typically using an averaging approach. However, these works
struggle to integrate a broader range of training dynamics without overlooking
well-generalized samples, which may not be sufficiently highlighted in an
averaging manner. In this study, we propose a novel dataset pruning method
termed as Temporal Dual-Depth Scoring (TDDS), to tackle this problem. TDDS
utilizes a dual-depth strategy to achieve a balance between incorporating
extensive training dynamics and identifying representative samples for dataset
pruning. In the first depth, we estimate the series of each sample's individual
contributions spanning the training progress, ensuring comprehensive
integration of training dynamics. In the second depth, we focus on the
variability of the sample-wise contributions identified in the first depth to
highlight well-generalized samples. Extensive experiments conducted on CIFAR
and ImageNet datasets verify the superiority of TDDS over previous SOTA
methods. Specifically on CIFAR-100, our method achieves 54.51% accuracy with
only 10% training data, surpassing random selection by 7.83% and other
comparison methods by at least 12.69%.
- Abstract(参考訳): dataset pruningは、オリジナルのフルデータセットに匹敵するパフォーマンスを実現するコアセットの構築を目指している。
既存のデータセットのプルーニングメソッドの多くは、代表的なサンプルを特定するためにスナップショットベースの基準に依存している。
最近の研究では、通常平均化アプローチを用いて、事象や確率変化を忘れるなど、考慮されるトレーニングダイナミクスの範囲を拡大することでこの問題に対処している。
しかし、これらの研究は、十分に一般化されたサンプルを見渡すことなく、より広い範囲のトレーニングダイナミクスを統合するのに苦労している。
本研究では,この問題を解決するために,時間的デュアルディープス・スコアリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
tddsは、広範なトレーニングダイナミクスとデータセットのプルーニングのための代表サンプルの識別のバランスを達成するために、デュアルディテール戦略を採用している。
第1の深さでは、トレーニングの進捗にまたがる各サンプルの個々のコントリビューションのシリーズを推定し、トレーニングダイナミクスの総合的な統合を保証する。
第2の奥行きでは,第一の奥行きで同定されたサンプル回りの貢献の変動性に着目し,一般化したサンプルを強調する。
CIFARとImageNetデータセットで実施された大規模な実験は、従来のSOTAメソッドよりもTDDSの優位性を検証する。
具体的には, CIFAR-100では, 10%のトレーニングデータで54.51%の精度を達成し, ランダム選択を7.83%以上, 比較手法を12.69%以上とした。
関連論文リスト
- Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels [8.14255560923536]
実世界のデータは、しばしば長い尾の分布とラベルノイズを示し、一般化性能を著しく低下させる。
近年の研究では,各クラス内の高信頼度サンプルに基づいて,各クラスのセントロイドを推定するノイズの多いサンプル選択手法に焦点が当てられている。
そこで我々は,分散型サンプル選択・コントラスト学習(DaSC)を提案し,拡張型セントロイドを生成する。
論文 参考訳(メタデータ) (2024-07-23T19:06:15Z) - Probing Perfection: The Relentless Art of Meddling for Pulmonary Airway Segmentation from HRCT via a Human-AI Collaboration Based Active Learning Method [13.384578466263566]
肺気管分節症では, 注記データの不足が主訴である。
ディープラーニング(DL)メソッドは、'ブラックボックス'モデルの不透明さとパフォーマンス向上の必要性という課題に直面します。
多様なクエリ戦略とさまざまなDLモデルを組み合わせることで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-07-03T23:27:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Finding Foundation Models for Time Series Classification with a PreText
Task [7.197233473373693]
本稿では,時系列分類のための事前訓練済みドメイン基盤モデルを提案する。
我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。
UCRアーカイブの実験では,この事前学習戦略が,事前学習を伴わずに従来の訓練方法よりも有意に優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-24T15:03:55Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning [28.042568086423298]
ランダム・サブセットの繰り返しサンプリング(RS2)は、強力だが見落とされたランダムサンプリング戦略である。
我々は、ImageNetを含む4つのデータセットにわたる30の最先端データプルーニングとデータ蒸留法に対してRS2をテストする。
その結果,RS2は既存の手法に比べて時間と精度を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2023-05-28T20:38:13Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。