論文の概要: Dataset Distillation via the Wasserstein Metric
- arxiv url: http://arxiv.org/abs/2311.18531v1
- Date: Thu, 30 Nov 2023 13:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:31:14.035389
- Title: Dataset Distillation via the Wasserstein Metric
- Title(参考訳): ワッサーシュタイン計量によるデータセット蒸留
- Authors: Haoyang Liu, Tiancheng Xing, Luwei Li, Vibhu Dalal, Jingrui He, Haohan
Wang
- Abstract要約: 本稿では, 最適輸送理論に根ざした計量であるワッサーシュタイン距離を利用して, データセット蒸留における分布整合性を高める手法を提案する。
提案手法は分散マッチング手法の計算上の利点を保ちながら,いくつかのベンチマークで新たな最先端性能を実現している。
- 参考スコア(独自算出の注目度): 39.3118980575691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) offers a compelling approach in computer vision,
with the goal of condensing extensive datasets into smaller synthetic versions
without sacrificing much of the model performance. In this paper, we continue
to study the methods for DD, by addressing its conceptually core objective: how
to capture the essential representation of extensive datasets in smaller,
synthetic forms.
We propose a novel approach utilizing the Wasserstein distance, a metric
rooted in optimal transport theory, to enhance distribution matching in DD. Our
method leverages the Wasserstein barycenter, offering a geometrically
meaningful way to quantify distribution differences and effectively capture the
centroid of a set of distributions. Our approach retains the computational
benefits of distribution matching-based methods while achieving new
state-of-the-art performance on several benchmarks.
To provide useful prior for learning the images, we embed the synthetic data
into the feature space of pretrained classification models to conduct
distribution matching. Extensive testing on various high-resolution datasets
confirms the effectiveness and adaptability of our method, indicating the
promising yet unexplored capabilities of Wasserstein metrics in dataset
distillation.
- Abstract(参考訳): データセット蒸留(DD)はコンピュータビジョンにおいて魅力的なアプローチであり、モデルの性能の多くを犠牲にすることなく、広範なデータセットをより小さな合成バージョンに凝縮することを目的としている。
本稿では,その概念的中核的な目的である,より小型で合成的なデータセットの本質的な表現をいかに捉えるか,DDの手法について検討を続ける。
本研究では,最適移動理論に根ざした距離であるワッサースタイン距離を用いてddにおける分布マッチングを強化する新しい手法を提案する。
本手法は,分布差を定量化し,分布集合のセントロイドを効果的に捕捉する幾何学的に意味のある方法を提供する。
本手法は分散マッチング方式の計算上の利点を保ちつつ,複数のベンチマークで新たな最先端性能を実現する。
画像の学習に有用な事前情報を提供するため,事前学習された分類モデルの特徴空間に合成データを組み込んで分布マッチングを行う。
様々な高分解能データセットに対する広範囲なテストは、この方法の有効性と適応性を確認し、データセット蒸留におけるwassersteinメトリクスの有望で未探索の能力を示している。
関連論文リスト
- Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Cross-feature Contrastive Loss for Decentralized Deep Learning on
Heterogeneous Data [8.946847190099206]
異種データに基づく分散学習のための新しい手法を提案する。
一対の隣接するエージェントのクロスフィーチャーは、他のエージェントのモデルパラメータに関するエージェントのデータから得られる特徴である。
実験の結果,提案手法は異種データを用いた分散学習手法に比べて性能(テスト精度が0.2~4%向上)が優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T14:48:23Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Interpolation for Robust Learning: Data Augmentation on Wasserstein
Geodesics [38.81209454516577]
そこで本研究では,学習データ分布のカテゴリを通じて,モデルの性能に応じたロバスト性について研究し,促進することを提案する。
具体的には、人口分布を接続する測地線上の最悪のワッサーシュタインバリセンタを見つけることにより、データを増強する。
サブポピュレーション分布を接続する連続測地路上でのスムーズな性能のモデルを正規化する。
論文 参考訳(メタデータ) (2023-02-04T04:52:22Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。