論文の概要: Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation
- arxiv url: http://arxiv.org/abs/2505.15267v1
- Date: Wed, 21 May 2025 08:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.323797
- Title: Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation
- Title(参考訳): 大規模データセット蒸留のためのコントラスト学習によるトラジェクトリマッチング
- Authors: Wenmin Li, Shunsuke Sakai, Tatsuhito Hasegawa,
- Abstract要約: 画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。
提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
- 参考スコア(独自算出の注目度): 0.7560883489000576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying machine learning models in resource-constrained environments, such as edge devices or rapid prototyping scenarios, increasingly demands distillation of large datasets into significantly smaller yet informative synthetic datasets. Current dataset distillation techniques, particularly Trajectory Matching methods, optimize synthetic data so that the model's training trajectory on synthetic samples mirrors that on real data. While demonstrating efficacy on medium-scale synthetic datasets, these methods fail to adequately preserve semantic richness under extreme sample scarcity. To address this limitation, we propose a novel dataset distillation method integrating contrastive learning during image synthesis. By explicitly maximizing instance-level feature discrimination, our approach produces more informative and diverse synthetic samples, even when dataset sizes are significantly constrained. Experimental results demonstrate that incorporating contrastive learning substantially enhances the performance of models trained on very small-scale synthetic datasets. This integration not only guides more effective feature representation but also significantly improves the visual fidelity of the synthesized images. Experimental results demonstrate that our method achieves notable performance improvements over existing distillation techniques, especially in scenarios with extremely limited synthetic data.
- Abstract(参考訳): エッジデバイスやラピッドプロトタイピングシナリオなどのリソース制約のある環境に機械学習モデルをデプロイすると、大規模なデータセットをはるかに小さく、情報に富む合成データセットに蒸留する必要がある。
現在のデータセット蒸留技術、特にTrajectory Matching法は、合成データを最適化し、モデルが合成サンプルの訓練軌跡を実際のデータに反映するようにしている。
中規模合成データセットに有効性を示す一方で、これらの手法は極端なサンプル不足下で意味的富を適切に保存することができない。
この制限に対処するため,画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。
インスタンスレベルの特徴識別を明示的に最大化することにより,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
実験結果から,コントラスト学習を取り入れることで,非常に小規模な合成データセットで訓練されたモデルの性能が大幅に向上することが示された。
この統合は、より効果的な特徴表現を導くだけでなく、合成画像の視覚的忠実度を大幅に改善する。
実験により, 既存の蒸留技術, 特に極端に限られた合成データを用いた場合において, 従来の蒸留技術よりも顕著な性能向上が得られた。
関連論文リスト
- Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching [19.8751746334929]
合成データセットのサイズが大きくなるにつれて有効なアルゴリズムを提案する。
実験により, 一致する軌道の訓練段階が, 蒸留データセットの有効性に大きく影響していることが判明した。
そこで我々は,軌道マッチングに基づく手法を大規模合成データセットに拡張することに成功している。
論文 参考訳(メタデータ) (2023-10-09T14:57:41Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。