論文の概要: TGDD: Trajectory Guided Dataset Distillation with Balanced Distribution
- arxiv url: http://arxiv.org/abs/2512.02469v1
- Date: Tue, 02 Dec 2025 07:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.753482
- Title: TGDD: Trajectory Guided Dataset Distillation with Balanced Distribution
- Title(参考訳): TGDD: 平衡分布を持つ軌道誘導型データセット蒸留
- Authors: Fengli Ran, Xiao Pu, Bo Liu, Xiuli Bi, Bin Xiao,
- Abstract要約: 動的アライメントプロセスとして分布マッチングを再構成するトラジェクトリガイド付きデータセット蒸留(TGDD)を提案する。
各トレーニング段階では、TGDDは、合成データセットと元のデータセットの間の特徴分布を調整することによって、進化的なセマンティクスをキャプチャする。
10つのデータセットの実験では、TGDDは最先端のパフォーマンスを達成しており、特に高解像度のベンチマークでは5.0%の精度が向上している。
- 参考スコア(独自算出の注目度): 22.720901808326122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation compresses large datasets into compact synthetic ones to reduce storage and computational costs. Among various approaches, distribution matching (DM)-based methods have attracted attention for their high efficiency. However, they often overlook the evolution of feature representations during training, which limits the expressiveness of synthetic data and weakens downstream performance. To address this issue, we propose Trajectory Guided Dataset Distillation (TGDD), which reformulates distribution matching as a dynamic alignment process along the model's training trajectory. At each training stage, TGDD captures evolving semantics by aligning the feature distribution between the synthetic and original dataset. Meanwhile, it introduces a distribution constraint regularization to reduce class overlap. This design helps synthetic data preserve both semantic diversity and representativeness, improving performance in downstream tasks. Without additional optimization overhead, TGDD achieves a favorable balance between performance and efficiency. Experiments on ten datasets demonstrate that TGDD achieves state-of-the-art performance, notably a 5.0% accuracy gain on high-resolution benchmarks.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットをコンパクトな合成データセットに圧縮し、ストレージと計算コストを削減する。
様々な手法の中で,分散マッチング(DM)に基づく手法は高い効率性に注目されている。
しかし、彼らはしばしば、合成データの表現性を制限し、下流のパフォーマンスを低下させる訓練中の特徴表現の進化を見落としている。
この問題に対処するために,モデルのトレーニング軌道に沿った動的アライメントプロセスとして分布マッチングを再構成するトラジェクトリガイドデータセット蒸留(TGDD)を提案する。
各トレーニング段階では、TGDDは、合成データセットと元のデータセットの間の特徴分布を調整することによって、進化的なセマンティクスをキャプチャする。
一方、クラスオーバーラップを減らすために、分散制約正規化を導入している。
この設計は、セマンティックな多様性と代表性の両方を保存するのに役立ち、下流タスクのパフォーマンスを向上させる。
追加の最適化オーバーヘッドがなければ、TGDDはパフォーマンスと効率のバランスが良い。
10つのデータセットの実験では、TGDDは最先端のパフォーマンスを実現しており、特に高解像度のベンチマークでは5.0%の精度が向上している。
関連論文リスト
- From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness [6.073185086959359]
固定ビット予算下でデータセットのコンパクト性と精度を協調的に最適化する統合フレームワークを提案する。
QuADDは蒸留ループ内に微分可能な量子化モジュールを統合し、合成試料と量子化パラメータのエンドツーエンドの共最適化を可能にする。
本フレームワークは、データから量子化レベルを学習し、情報密度領域をより良く表現する、均一かつ適応的な非一様量子化をサポートする。
論文 参考訳(メタデータ) (2026-03-02T21:46:10Z) - Towards Principled Dataset Distillation: A Spectral Distribution Perspective [29.986767000752753]
本稿では,カーネル関数のスペクトルを用いて分布アライメントを再構成する,MCSD(Class-Aware Spectral Distribution Matching)を提案する。
CIFAR-10-LTでは、クラス毎に10のイメージを持つCSDMは、最先端DD法よりも14.0%改善され、テールクラスの画像数が減少すると5.7%のパフォーマンス低下しか得られない。
論文 参考訳(メタデータ) (2026-03-02T10:26:49Z) - Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation [109.13471554184554]
最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
論文 参考訳(メタデータ) (2025-11-29T04:04:05Z) - Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Dataset Distillation via the Wasserstein Metric [34.06251608504682]
We introduced WMDD (Wasserstein Metric-based dataset Distillation), which is simple but powerful method that using the Wasserstein metric to enhance distribution matching。
我々の実験は、WMDDの有効性と適応性を実証し、大規模に機械学習アプリケーションを前進させる可能性を強調した。
論文 参考訳(メタデータ) (2023-11-30T13:15:28Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。