論文の概要: Dataset Distillation via the Wasserstein Metric
- arxiv url: http://arxiv.org/abs/2311.18531v2
- Date: Fri, 15 Mar 2024 22:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:52:49.329867
- Title: Dataset Distillation via the Wasserstein Metric
- Title(参考訳): ワッサーシュタイン計量によるデータセット蒸留
- Authors: Haoyang Liu, Yijiang Li, Tiancheng Xing, Vibhu Dalal, Luwei Li, Jingrui He, Haohan Wang,
- Abstract要約: 最適な輸送理論に基づく計量であるワッサーシュタイン距離を導入し, データセット蒸留における分布整合性を高める。
提案手法は,高解像度データセットにまたがって,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 35.32856617593164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Distillation (DD) emerges as a powerful strategy to encapsulate the expansive information of large datasets into significantly smaller, synthetic equivalents, thereby preserving model performance with reduced computational overhead. Pursuing this objective, we introduce the Wasserstein distance, a metric grounded in optimal transport theory, to enhance distribution matching in DD. Our approach employs the Wasserstein barycenter to provide a geometrically meaningful method for quantifying distribution differences and capturing the centroid of distribution sets efficiently. By embedding synthetic data in the feature spaces of pretrained classification models, we facilitate effective distribution matching that leverages prior knowledge inherent in these models. Our method not only maintains the computational advantages of distribution matching-based techniques but also achieves new state-of-the-art performance across a range of high-resolution datasets. Extensive testing demonstrates the effectiveness and adaptability of our method, underscoring the untapped potential of Wasserstein metrics in dataset distillation.
- Abstract(参考訳): Dataset Distillation (DD) は、大規模データセットの拡張情報をはるかに小さく合成された等価データにカプセル化する強力な戦略として登場し、計算オーバーヘッドを減らしてモデル性能を維持する。
この目的から、DDにおける分布マッチングを強化するために、最適な輸送理論に基づく計量であるワッサーシュタイン距離を導入する。
提案手法では,分布差を定量化し,分布集合のセントロイドを効率的に捉えるための幾何学的に意味のある方法として,ワッサーシュタイン・バリセンタを用いている。
事前学習した分類モデルの特徴空間に合成データを埋め込むことにより、これらのモデルに固有の事前知識を活用する効果的な分布マッチングを容易にする。
提案手法は,分散マッチング手法の計算上の優位性を維持するだけでなく,様々な高解像度データセットにまたがる新しい最先端性能を実現する。
本手法の有効性と適応性を検証し, データセット蒸留におけるワッサーシュタイン測定の未発見の可能性について検討した。
関連論文リスト
- Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Spectral Clustering for Discrete Distributions [22.450518079181542]
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
本研究では, スペクトルクラスタリングと分布親和性尺度を組み合わせることで, バリセンタ法よりも精度が高く, 効率的であることを示す。
クラスタリング分布における手法の成功を理論的に保証する。
論文 参考訳(メタデータ) (2024-01-25T03:17:03Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。