論文の概要: DiRe: Diversity-promoting Regularization for Dataset Condensation
- arxiv url: http://arxiv.org/abs/2512.13083v1
- Date: Mon, 15 Dec 2025 08:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.584459
- Title: DiRe: Diversity-promoting Regularization for Dataset Condensation
- Title(参考訳): DiRe: データセット凝縮のための多様性促進型正規化
- Authors: Saumyaranjan Mohanty, Aravind Reddy, Konda Reddy Mopuri,
- Abstract要約: 本研究では,コサイン類似性とユークリッド距離からなる直感的なダイバーシティ正規化器(DiRe)を提案する。
DiReは、様々な最先端の凝縮法にオフザシェルフを適用することができる。
そこで本研究では,正規化器の追加により,各種ベンチマークデータセットにおける最先端の凝縮法が改良されることを実証する。
- 参考スコア(独自算出の注目度): 5.276232626689568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Dataset Condensation, the goal is to synthesize a small dataset that replicates the training utility of a large original dataset. Existing condensation methods synthesize datasets with significant redundancy, so there is a dire need to reduce redundancy and improve the diversity of the synthesized datasets. To tackle this, we propose an intuitive Diversity Regularizer (DiRe) composed of cosine similarity and Euclidean distance, which can be applied off-the-shelf to various state-of-the-art condensation methods. Through extensive experiments, we demonstrate that the addition of our regularizer improves state-of-the-art condensation methods on various benchmark datasets from CIFAR-10 to ImageNet-1K with respect to generalization and diversity metrics.
- Abstract(参考訳): Dataset Condensationでは、大規模なオリジナルデータセットのトレーニングユーティリティを複製する小さなデータセットを合成することが目標だ。
既存の凝縮法では, かなり冗長なデータセットを合成するので, 冗長性を低減し, データセットの多様性を向上させる必要がある。
そこで本研究では,コサイン類似性とユークリッド距離からなる直感的なダイバーシティ正規化器(DiRe)を提案する。
本研究では,CIFAR-10 から ImageNet-1K まで,様々なベンチマークデータセットに対するレギュラーライザの追加により,一般化と多様性の指標に関して,最先端の凝縮法が改良されることを実証する。
関連論文リスト
- Efficient Dataset Distillation through Low-Rank Space Sampling [34.29086540681496]
本稿では,低ランク空間サンプリングを用いたマッチング学習軌道に基づくデータセット蒸留手法を提案する。
合成データは、これらの部分空間から基底ベクトルと共有次元マッパーによって表現される。
提案手法は, CIFAR-10, CIFAR-100, SVHNデータセット上で試験され, 平均9.9%の精度でベースライン法より優れている。
論文 参考訳(メタデータ) (2025-03-11T02:59:17Z) - Towards Effective Data-Free Knowledge Distillation via Diverse Diffusion Augmentation [20.556083321381514]
データフリー知識蒸留(DFKD)は、モデル圧縮の領域において重要な技術である。
本稿では,多種拡散増強(DDA)によるDFKDの革新的アプローチを紹介する。
CIFAR-10, CIFAR-100, Tiny-ImageNetデータセットの総合的な実験により, 本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-10-23T07:01:16Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching [5.2193774924981176]
複雑な最適化と大規模なデータセットのため、高度な深層ハッシュモデルのトレーニングが高価になっている。
IEM(Information-intensive feature Embedding Matching, 情報集約型特徴埋め込みマッチング)を提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。