論文の概要: GeoDM: Geometry-aware Distribution Matching for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2512.08317v1
- Date: Tue, 09 Dec 2025 07:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.858676
- Title: GeoDM: Geometry-aware Distribution Matching for Dataset Distillation
- Title(参考訳): GeoDM:データセット蒸留のための幾何学的分布マッチング
- Authors: Xuhui Li, Zhengquan Luo, Zihui Cui, Zhiqiang Xu,
- Abstract要約: 我々はtextbfGeoDM と呼ばれる幾何学的分布マッチングフレームワークを提案する。
基礎となるデータ形状に適応するために,3種類の測地に対して学習可能な曲率と重みパラメータを導入する。
我々の理論的解析は、積空間における幾何対応分布マッチングがユークリッド空間よりも小さい一般化誤差をもたらすことを示している。
- 参考スコア(独自算出の注目度): 5.993128231927707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to synthesize a compact subset of the original data, enabling models trained on it to achieve performance comparable to those trained on the original large dataset. Existing distribution-matching methods are confined to Euclidean spaces, making them only capture linear structures and overlook the intrinsic geometry of real data, e.g., curvature. However, high-dimensional data often lie on low-dimensional manifolds, suggesting that dataset distillation should have the distilled data manifold aligned with the original data manifold. In this work, we propose a geometry-aware distribution-matching framework, called \textbf{GeoDM}, which operates in the Cartesian product of Euclidean, hyperbolic, and spherical manifolds, with flat, hierarchical, and cyclical structures all captured by a unified representation. To adapt to the underlying data geometry, we introduce learnable curvature and weight parameters for three kinds of geometries. At the same time, we design an optimal transport loss to enhance the distribution fidelity. Our theoretical analysis shows that the geometry-aware distribution matching in a product space yields a smaller generalization error bound than the Euclidean counterparts. Extensive experiments conducted on standard benchmarks demonstrate that our algorithm outperforms state-of-the-art data distillation methods and remains effective across various distribution-matching strategies for the single geometries.
- Abstract(参考訳): データセットの蒸留は、元のデータのコンパクトなサブセットを合成することを目的としており、トレーニングされたモデルが元の大規模データセットでトレーニングされたモデルに匹敵するパフォーマンスを達成することができる。
既存の分布マッチング法はユークリッド空間に限られており、線型構造のみを捉え、実データ(例えば曲率)の内在幾何学を見渡すことができる。
しかし、高次元データはしばしば低次元多様体に関係しており、データセットの蒸留は元のデータ多様体に一致した蒸留データ多様体を持つべきであることを示唆している。
本研究では, ユークリッド, 双曲, 球面多様体のカルト積で機能し, 平坦, 階層的, 循環的構造を全て統一表現で捉えた幾何学的分布マッチングフレームワークである \textbf{GeoDM} を提案する。
基礎となるデータ形状に適応するために,3種類の測地に対して学習可能な曲率と重みパラメータを導入する。
同時に、分布の忠実度を高めるために最適な輸送損失を設計する。
我々の理論的解析は、積空間における幾何対応分布マッチングがユークリッド空間よりも小さい一般化誤差をもたらすことを示している。
標準ベンチマークで行った大規模な実験により、我々のアルゴリズムは最先端のデータ蒸留法より優れており、単一測地における様々な分布マッチング戦略において有効であることが示された。
関連論文リスト
- Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation [109.13471554184554]
最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
論文 参考訳(メタデータ) (2025-11-29T04:04:05Z) - Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。
遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文 参考訳(メタデータ) (2025-07-15T23:08:14Z) - Follow the Energy, Find the Path: Riemannian Metrics from Energy-Based Models [63.331590876872944]
本稿では,事前学習したエネルギーベースモデルから直接リーマン計量を導出する手法を提案する。
これらの測度は空間的に異なる距離を定義し、測地学の計算を可能にする。
EBM由来のメトリクスは、確立されたベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-05-23T12:18:08Z) - What's Inside Your Diffusion Model? A Score-Based Riemannian Metric to Explore the Data Manifold [0.053713376045563095]
スコアに基づくリーマン計量を導入し、データ多様体の内在幾何学を特徴づける。
我々のアプローチは、測地学が自然に多様体の輪郭に従う幾何学を生成する。
我々のスコアに基づく測地学は、基礎となるデータ分布を尊重する有意義な垂直変換を捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-16T11:19:57Z) - Score-based Pullback Riemannian Geometry: Extracting the Data Manifold Geometry using Anisotropic Flows [10.649159213723106]
本稿では,データ駆動型リーマン幾何学のフレームワークを提案する。
提案手法は,データサポートを通した高品質な測地線を生成する。
これは、データ多様体の完全な幾何学を抽出する最初のスケーラブルなフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T18:52:12Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - Exploring Data Geometry for Continual Learning [64.4358878435983]
非定常データストリームのデータ幾何を探索することにより,新しい視点から連続学習を研究する。
提案手法は,新しいデータによって引き起こされる幾何構造に対応するために,基底空間の幾何学を動的に拡張する。
実験により,本手法はユークリッド空間で設計したベースライン法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-04-08T06:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。