論文の概要: Geometry-Aware Dataset Condensation for Diffusion Model Training
- arxiv url: http://arxiv.org/abs/2606.05883v1
- Date: Thu, 04 Jun 2026 08:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.667881
- Title: Geometry-Aware Dataset Condensation for Diffusion Model Training
- Title(参考訳): 拡散モデルトレーニングのための幾何対応データセット凝縮法
- Authors: Xiao Cui, Yulei Qin, Mo Zhu, Wengang Zhou, Hongsheng Li, Houqiang Li,
- Abstract要約: 幾何学的分布アライメント問題として,実部分集合選択を再構成することを提案する。
本手法は,一方的な部分的最適輸送を組み込むことで,コンパクトな部分集合を全データ分布に選択的に整列させる。
拡散変形, 部分集合サイズ, 画像解像度, 訓練ラウンドにおける実験により, 本手法が優れた忠実度と分布範囲を実現することを示す。
- 参考スコア(独自算出の注目度): 103.45641113998839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset condensation aims to construct compact datasets from real data via synthesis or selection. However, existing approaches are ill-suited for diffusion model training: synthetic data generation often yields low-fidelity samples unsuitable for authentic modeling, while real subset selection typically fails to preserve the distributional geometry required by diffusion likelihood objectives. To address this, we propose to reformulate real subset selection as a geometry-aware distribution alignment problem. By incorporating one-sided partial optimal transport, our method selectively aligns a compact subset with the full data distribution while allowing unmatched mass in low-density regions, ensuring the preserved geometric structure necessary for effective diffusion model training. To further ensure distributional fidelity, we complement geometric alignment with lightweight feature-statistics and semantic consistency regularization. An efficient two-stage discrete optimization strategy is proposed to achieve this alignment objective. Extensive experiments across diffusion variants, subset sizes, image resolutions, and training rounds show that our method achieves superior fidelity and distributional coverage in diffusion model training. Codes are available at https://github.com/2018cx/GADC.
- Abstract(参考訳): データセットの凝縮は、合成や選択を通じて実際のデータからコンパクトなデータセットを構築することを目的としている。
しかし、既存のアプローチは拡散モデルトレーニングには適していない: 合成データ生成はしばしば、真のモデリングには適さない低忠実度サンプルを生成するが、実際のサブセット選択は通常、拡散可能性目的によって要求される分布幾何学を保存するのに失敗する。
そこで本研究では,実際の部分集合選択を幾何学的分布アライメント問題として再構成することを提案する。
低密度領域の未整合質量を許容し, 有効拡散モデルトレーニングに必要な保存的幾何学的構造を保証しながら, コンパクト部分集合を全データ分布に選択的に整列させる。
さらに分布の忠実性を確保するために、我々は、軽量な特徴統計学と意味的整合性正規化による幾何的アライメントを補完する。
このアライメント目的を達成するために,効率的な2段階離散最適化手法を提案する。
拡散モデルトレーニングにおいて, 拡散量, サブセットサイズ, 画像解像度, およびトレーニングラウンドの広範な実験により, 提案手法が優れた忠実度および分布範囲を達成できることが示されている。
コードはhttps://github.com/2018cx/GADCで公開されている。
関連論文リスト
- IMS3: Breaking Distributional Aggregation in Diffusion-Based Dataset Distillation [41.83834685276882]
近年,拡散型データセット蒸留法は,拡散モデルの強い生成能力を活用し,多様で構造的に一貫した試料を生成することにより,大きな期待を抱いている。
Inversion-Matching (IM)は、インバージョン誘導による微調整プロセスを導入し、軌道をインバージョンと整列させ、分布範囲を広げ、多様性を高める。
Selective Subgroup Sampling(S3)は、クラス間分離性を改善するためのトレーニング不要なサンプリングメカニズムである。
論文 参考訳(メタデータ) (2026-03-14T14:15:03Z) - Flow Matching is Adaptive to Manifold Structures [32.55405572762157]
フローマッチングは拡散に基づく生成モデルに代わるシミュレーションベースである。
フローマッチングがデータ幾何学にどのように適応し、次元の呪いを回避するかを示す。
論文 参考訳(メタデータ) (2026-02-25T23:52:32Z) - GeoDM: Geometry-aware Distribution Matching for Dataset Distillation [5.993128231927707]
我々はtextbfGeoDM と呼ばれる幾何学的分布マッチングフレームワークを提案する。
基礎となるデータ形状に適応するために,3種類の測地に対して学習可能な曲率と重みパラメータを導入する。
我々の理論的解析は、積空間における幾何対応分布マッチングがユークリッド空間よりも小さい一般化誤差をもたらすことを示している。
論文 参考訳(メタデータ) (2025-12-09T07:31:57Z) - Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation [109.13471554184554]
最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
論文 参考訳(メタデータ) (2025-11-29T04:04:05Z) - Composition and Alignment of Diffusion Models using Constrained Learning [79.36736636241564]
拡散モデルは、複雑な分布からサンプルを採取する能力により、生成的モデリングにおいて普及している。
i) 拡散モデルを微調整して報酬と整合させるアライメントと、(ii) 予め訓練された拡散モデルを組み合わせて、それぞれが生成した出力に望ましい属性を強調する合成である。
本稿では,共役モデルが報酬制約を満たすこと,あるいは(潜在的に複数の)事前学習モデルに近づき続けることを強制することによって,拡散モデルのアライメントと構成を統一する制約付き最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T15:06:30Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。