論文の概要: Hyperbolic Dataset Distillation
- arxiv url: http://arxiv.org/abs/2505.24623v1
- Date: Fri, 30 May 2025 14:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.991378
- Title: Hyperbolic Dataset Distillation
- Title(参考訳): ハイパーボリックデータセット蒸留
- Authors: Wenyuan Li, Guang Li, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: 深層学習において, コンパクトなデータセットを合成するための新しいハイパーボリックデータセット蒸留法を提案する。
階層構造は蒸留プロセスに明示的に統合され、合成試料を原データ分布の根中心領域へ誘導する。
ハイパーボリック空間におけるプルーニングでは, モデル性能を維持するため, 蒸留コアセットの20%しか必要とせず, トレーニング安定性は著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 39.95016891640128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the computational and storage challenges posed by large-scale datasets in deep learning, dataset distillation has been proposed to synthesize a compact dataset that replaces the original while maintaining comparable model performance. Unlike optimization-based approaches that require costly bi-level optimization, distribution matching (DM) methods improve efficiency by aligning the distributions of synthetic and original data, thereby eliminating nested optimization. DM achieves high computational efficiency and has emerged as a promising solution. However, existing DM methods, constrained to Euclidean space, treat data as independent and identically distributed points, overlooking complex geometric and hierarchical relationships. To overcome this limitation, we propose a novel hyperbolic dataset distillation method, termed HDD. Hyperbolic space, characterized by negative curvature and exponential volume growth with distance, naturally models hierarchical and tree-like structures. HDD embeds features extracted by a shallow network into the Lorentz hyperbolic space, where the discrepancy between synthetic and original data is measured by the hyperbolic (geodesic) distance between their centroids. By optimizing this distance, the hierarchical structure is explicitly integrated into the distillation process, guiding synthetic samples to gravitate towards the root-centric regions of the original data distribution while preserving their underlying geometric characteristics. Furthermore, we find that pruning in hyperbolic space requires only 20% of the distilled core set to retain model performance, while significantly improving training stability. Notably, HDD is seamlessly compatible with most existing DM methods, and extensive experiments on different datasets validate its effectiveness.
- Abstract(参考訳): ディープラーニングにおける大規模データセットによる計算と記憶の課題に対処するため、データセット蒸留は、オリジナルのモデル性能を維持しながら、元のデータセットを置き換えるコンパクトデータセットを合成するために提案されている。
コストのかかる2レベル最適化を必要とする最適化ベースのアプローチとは異なり、分散マッチング(DM)手法は、合成データとオリジナルデータの分布を整列させることで効率を向上し、ネスト最適化をなくす。
DMは高い計算効率を実現し、将来性のあるソリューションとして登場した。
しかし、ユークリッド空間に制約された既存のDM法は、データを独立かつ同一に分散した点として扱い、複雑な幾何学的および階層的関係を見渡す。
この制限を克服するために,HDDと呼ばれる新しいハイパーボリックデータセット蒸留法を提案する。
双曲空間(英: hyperbolic space)は、負の曲率と距離の指数的な体積成長を特徴とし、自然に階層構造や木のような構造をモデル化する。
HDDは、浅いネットワークによって抽出された特徴をローレンツ双曲空間に埋め込む。
この距離を最適化することにより、階層構造を蒸留プロセスに明示的に統合し、その基礎となる幾何学的特性を保ちながら、原データ分布の根中心領域に誘導する合成試料を誘導する。
さらに, モデル性能を維持するためには, 蒸留コアセットの20%しか必要とせず, トレーニング安定性は著しく向上することがわかった。
注目すべきは、HDDは既存のほとんどのDMメソッドとシームレスに互換性があり、異なるデータセットに関する広範な実験がその有効性を検証することである。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Dataset Distillation via the Wasserstein Metric [35.32856617593164]
最適な輸送理論に基づく計量であるワッサーシュタイン距離を導入し, データセット蒸留における分布整合性を高める。
提案手法は,高解像度データセットにまたがって,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-30T13:15:28Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。