論文の概要: When Dynamic Data Selection Meets Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.03809v1
- Date: Fri, 02 May 2025 11:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.831361
- Title: When Dynamic Data Selection Meets Data Augmentation
- Title(参考訳): 動的データ選択がデータ拡張と出会うとき
- Authors: Suorong Yang, Peng Ye, Furao Shen, Dongzhan Zhou,
- Abstract要約: 動的データ選択と拡張を統一する新しいオンラインデータトレーニングフレームワークを提案する。
提案手法は,各サンプルの局所密度と多モーダル意味一貫性の結合分布を推定し,拡張に適したサンプルのターゲット選択を可能にする。
提案手法は, 耐雑音性を高め, モデルロバスト性を向上し, 実世界のシナリオにおける実用性を向上する。
- 参考スコア(独自算出の注目度): 10.217776379089093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic data selection aims to accelerate training with lossless performance. However, reducing training data inherently limits data diversity, potentially hindering generalization. While data augmentation is widely used to enhance diversity, it is typically not optimized in conjunction with selection. As a result, directly combining these techniques fails to fully exploit their synergies. To tackle the challenge, we propose a novel online data training framework that, for the first time, unifies dynamic data selection and augmentation, achieving both training efficiency and enhanced performance. Our method estimates each sample's joint distribution of local density and multimodal semantic consistency, allowing for the targeted selection of augmentation-suitable samples while suppressing the inclusion of noisy or ambiguous data. This enables a more significant reduction in dataset size without sacrificing model generalization. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches on various benchmark datasets and architectures, e.g., reducing 50\% training costs on ImageNet-1k with lossless performance. Furthermore, our approach enhances noise resistance and improves model robustness, reinforcing its practical utility in real-world scenarios.
- Abstract(参考訳): ダイナミックデータの選択は、損失のないパフォーマンスでトレーニングを加速することを目的としている。
しかし、トレーニングデータの削減は本質的にデータの多様性を制限し、一般化を妨げる可能性がある。
データ拡張は多様性を高めるために広く使用されているが、通常、選択と組み合わせて最適化されていない。
その結果、これらのテクニックを直接組み合わせても、それらのシナジーを完全に活用できない。
この課題に対処するために、我々は、動的データ選択と拡張を初めて統合し、トレーニング効率と性能の向上の両方を達成する、新しいオンラインデータトレーニングフレームワークを提案する。
提案手法は,各サンプルの局所密度と多モーダルな意味的一貫性の結合分布を推定し,雑音や曖昧なデータの取り込みを抑えつつ,拡張に適したサンプルのターゲット選択を可能にする。
これにより、モデルの一般化を犠牲にすることなく、データセットサイズをより大幅に削減できる。
実験の結果,提案手法は様々なベンチマークデータセットやアーキテクチャにおける既存の最先端手法よりも優れており,画像Net-1kのトレーニングコストの50%を損失のない性能で削減できることがわかった。
さらに,本手法は耐雑音性の向上とモデルロバスト性の向上を実現し,実世界のシナリオにおける実用性を向上する。
関連論文リスト
- Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。