論文の概要: TGDD: Trajectory Guided Dataset Distillation with Balanced Distribution
- arxiv url: http://arxiv.org/abs/2512.02469v1
- Date: Tue, 02 Dec 2025 07:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.753482
- Title: TGDD: Trajectory Guided Dataset Distillation with Balanced Distribution
- Title(参考訳): TGDD: 平衡分布を持つ軌道誘導型データセット蒸留
- Authors: Fengli Ran, Xiao Pu, Bo Liu, Xiuli Bi, Bin Xiao,
- Abstract要約: 動的アライメントプロセスとして分布マッチングを再構成するトラジェクトリガイド付きデータセット蒸留(TGDD)を提案する。
各トレーニング段階では、TGDDは、合成データセットと元のデータセットの間の特徴分布を調整することによって、進化的なセマンティクスをキャプチャする。
10つのデータセットの実験では、TGDDは最先端のパフォーマンスを達成しており、特に高解像度のベンチマークでは5.0%の精度が向上している。
- 参考スコア(独自算出の注目度): 22.720901808326122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation compresses large datasets into compact synthetic ones to reduce storage and computational costs. Among various approaches, distribution matching (DM)-based methods have attracted attention for their high efficiency. However, they often overlook the evolution of feature representations during training, which limits the expressiveness of synthetic data and weakens downstream performance. To address this issue, we propose Trajectory Guided Dataset Distillation (TGDD), which reformulates distribution matching as a dynamic alignment process along the model's training trajectory. At each training stage, TGDD captures evolving semantics by aligning the feature distribution between the synthetic and original dataset. Meanwhile, it introduces a distribution constraint regularization to reduce class overlap. This design helps synthetic data preserve both semantic diversity and representativeness, improving performance in downstream tasks. Without additional optimization overhead, TGDD achieves a favorable balance between performance and efficiency. Experiments on ten datasets demonstrate that TGDD achieves state-of-the-art performance, notably a 5.0% accuracy gain on high-resolution benchmarks.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットをコンパクトな合成データセットに圧縮し、ストレージと計算コストを削減する。
様々な手法の中で,分散マッチング(DM)に基づく手法は高い効率性に注目されている。
しかし、彼らはしばしば、合成データの表現性を制限し、下流のパフォーマンスを低下させる訓練中の特徴表現の進化を見落としている。
この問題に対処するために,モデルのトレーニング軌道に沿った動的アライメントプロセスとして分布マッチングを再構成するトラジェクトリガイドデータセット蒸留(TGDD)を提案する。
各トレーニング段階では、TGDDは、合成データセットと元のデータセットの間の特徴分布を調整することによって、進化的なセマンティクスをキャプチャする。
一方、クラスオーバーラップを減らすために、分散制約正規化を導入している。
この設計は、セマンティックな多様性と代表性の両方を保存するのに役立ち、下流タスクのパフォーマンスを向上させる。
追加の最適化オーバーヘッドがなければ、TGDDはパフォーマンスと効率のバランスが良い。
10つのデータセットの実験では、TGDDは最先端のパフォーマンスを実現しており、特に高解像度のベンチマークでは5.0%の精度が向上している。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Dataset Distillation via the Wasserstein Metric [34.06251608504682]
We introduced WMDD (Wasserstein Metric-based dataset Distillation), which is simple but powerful method that using the Wasserstein metric to enhance distribution matching。
我々の実験は、WMDDの有効性と適応性を実証し、大規模に機械学習アプリケーションを前進させる可能性を強調した。
論文 参考訳(メタデータ) (2023-11-30T13:15:28Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。