Fugu-MT 論文翻訳(概要): Dataset Distillation via the Wasserstein Metric

論文の概要: Dataset Distillation via the Wasserstein Metric

arxiv url: http://arxiv.org/abs/2311.18531v1
Date: Thu, 30 Nov 2023 13:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 16:31:14.035389
Title: Dataset Distillation via the Wasserstein Metric
Title（参考訳）: ワッサーシュタイン計量によるデータセット蒸留
Authors: Haoyang Liu, Tiancheng Xing, Luwei Li, Vibhu Dalal, Jingrui He, Haohan Wang
Abstract要約: 本稿では, 最適輸送理論に根ざした計量であるワッサーシュタイン距離を利用して, データセット蒸留における分布整合性を高める手法を提案する。提案手法は分散マッチング手法の計算上の利点を保ちながら,いくつかのベンチマークで新たな最先端性能を実現している。
参考スコア（独自算出の注目度）: 39.3118980575691
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dataset distillation (DD) offers a compelling approach in computer vision, with the goal of condensing extensive datasets into smaller synthetic versions without sacrificing much of the model performance. In this paper, we continue to study the methods for DD, by addressing its conceptually core objective: how to capture the essential representation of extensive datasets in smaller, synthetic forms. We propose a novel approach utilizing the Wasserstein distance, a metric rooted in optimal transport theory, to enhance distribution matching in DD. Our method leverages the Wasserstein barycenter, offering a geometrically meaningful way to quantify distribution differences and effectively capture the centroid of a set of distributions. Our approach retains the computational benefits of distribution matching-based methods while achieving new state-of-the-art performance on several benchmarks. To provide useful prior for learning the images, we embed the synthetic data into the feature space of pretrained classification models to conduct distribution matching. Extensive testing on various high-resolution datasets confirms the effectiveness and adaptability of our method, indicating the promising yet unexplored capabilities of Wasserstein metrics in dataset distillation.
Abstract（参考訳）: データセット蒸留(DD)はコンピュータビジョンにおいて魅力的なアプローチであり、モデルの性能の多くを犠牲にすることなく、広範なデータセットをより小さな合成バージョンに凝縮することを目的としている。本稿では,その概念的中核的な目的である,より小型で合成的なデータセットの本質的な表現をいかに捉えるか,DDの手法について検討を続ける。本研究では,最適移動理論に根ざした距離であるワッサースタイン距離を用いてddにおける分布マッチングを強化する新しい手法を提案する。本手法は,分布差を定量化し,分布集合のセントロイドを効果的に捕捉する幾何学的に意味のある方法を提供する。本手法は分散マッチング方式の計算上の利点を保ちつつ,複数のベンチマークで新たな最先端性能を実現する。画像の学習に有用な事前情報を提供するため,事前学習された分類モデルの特徴空間に合成データを組み込んで分布マッチングを行う。様々な高分解能データセットに対する広範囲なテストは、この方法の有効性と適応性を確認し、データセット蒸留におけるwassersteinメトリクスの有望で未探索の能力を示している。

関連論文リスト

Hyperbolic Dataset Distillation [39.95016891640128]
深層学習において, コンパクトなデータセットを合成するための新しいハイパーボリックデータセット蒸留法を提案する。階層構造は蒸留プロセスに明示的に統合され、合成試料を原データ分布の根中心領域へ誘導する。ハイパーボリック空間におけるプルーニングでは, モデル性能を維持するため, 蒸留コアセットの20%しか必要とせず, トレーニング安定性は著しく向上することがわかった。
論文参考訳（メタデータ） (2025-05-30T14:14:00Z)
Taming Diffusion for Dataset Distillation with High Representativeness [49.3818035378669]
D3HRは、高い代表性を持つ蒸留データセットを生成する新しい拡散ベースのフレームワークである。我々の実験は、D3HRが異なるモデルアーキテクチャにわたって高い精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-05-23T22:05:59Z)
Efficient Dataset Distillation through Low-Rank Space Sampling [34.29086540681496]
本稿では,低ランク空間サンプリングを用いたマッチング学習軌道に基づくデータセット蒸留手法を提案する。合成データは、これらの部分空間から基底ベクトルと共有次元マッパーによって表現される。提案手法は, CIFAR-10, CIFAR-100, SVHNデータセット上で試験され, 平均9.9%の精度でベースライン法より優れている。
論文参考訳（メタデータ） (2025-03-11T02:59:17Z)
Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文参考訳（メタデータ） (2025-01-13T20:41:52Z)
Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文参考訳（メタデータ） (2025-01-08T00:43:31Z)
Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文参考訳（メタデータ） (2024-12-13T08:10:47Z)
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。本手法はGAN内の階層層を系統的に探索する。さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文参考訳（メタデータ） (2024-06-09T09:15:54Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Distributed Markov Chain Monte Carlo Sampling based on the Alternating Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文参考訳（メタデータ） (2024-01-29T02:08:40Z)
Spectral Clustering for Discrete Distributions [22.450518079181542]
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。本研究では, スペクトルクラスタリングと分布親和性尺度を組み合わせることで, バリセンタ法よりも精度が高く, 効率的であることを示す。クラスタリング分布における手法の成功を理論的に保証する。
論文参考訳（メタデータ） (2024-01-25T03:17:03Z)
M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文参考訳（メタデータ） (2023-12-26T07:45:32Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T13:23:55Z)
Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文参考訳（メタデータ） (2023-02-14T17:02:35Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
DDAC-SpAM: A Distributed Algorithm for Fitting High-dimensional Sparse Additive Models with Feature Division and Decorrelation [16.232378903482143]
本稿では,高次元のスパース加法モデルの下で特徴を分割する分散統計学習アルゴリズムDDAC-SpAMを提案する。提案アルゴリズムの有効性と有効性は, 合成データと実データの両方に関する理論的解析と実験結果によって実証される。提案手法は, スパース加法モデルと, 広範囲の領域で有望な応用を実現するための実用的ソリューションを提供する。
論文参考訳（メタデータ） (2022-05-16T18:31:03Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。