論文の概要: Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation
- arxiv url: http://arxiv.org/abs/2507.21455v1
- Date: Tue, 29 Jul 2025 02:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.563086
- Title: Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation
- Title(参考訳): パラメータ化, 事前定義された拡張, 近似による自己監督型データセット蒸留の促進
- Authors: Sheng-Feng Yu, Jia-Jiun Yao, Wei-Chen Chiu,
- Abstract要約: 本稿では,画像とその自己教師付き表現を蒸留セットに蒸留する手法を提案する。
この方法では、実データセットからリッチな情報を効果的に抽出し、クロスアーキテクチャの一般化性を高めた蒸留セットを得る。
特に、異なる低次元の基底を用いて、画像や表現に革新的なパラメータ化を導入する。
- 参考スコア(独自算出の注目度): 19.552569546864913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although larger datasets are crucial for training large deep models, the rapid growth of dataset size has brought a significant challenge in terms of considerable training costs, which even results in prohibitive computational expenses. Dataset Distillation becomes a popular technique recently to reduce the dataset size via learning a highly compact set of representative exemplars, where the model trained with these exemplars ideally should have comparable performance with respect to the one trained with the full dataset. While most of existing works upon dataset distillation focus on supervised datasets, we instead aim to distill images and their self-supervisedly trained representations into a distilled set. This procedure, named as Self-Supervised Dataset Distillation, effectively extracts rich information from real datasets, yielding the distilled sets with enhanced cross-architecture generalizability. Particularly, in order to preserve the key characteristics of original dataset more faithfully and compactly, several novel techniques are proposed: 1) we introduce an innovative parameterization upon images and representations via distinct low-dimensional bases, where the base selection for parameterization is experimentally shown to play a crucial role; 2) we tackle the instability induced by the randomness of data augmentation -- a key component in self-supervised learning but being underestimated in the prior work of self-supervised dataset distillation -- by utilizing predetermined augmentations; 3) we further leverage a lightweight network to model the connections among the representations of augmented views from the same image, leading to more compact pairs of distillation. Extensive experiments conducted on various datasets validate the superiority of our approach in terms of distillation efficiency, cross-architecture generalization, and transfer learning performance.
- Abstract(参考訳): 大きなデータセットは大規模な深層モデルのトレーニングには不可欠だが、データセットサイズの急速な成長は、かなりのトレーニングコストの面で大きな課題をもたらし、計算コストの禁止さえもたらした。
データセット蒸留(Dataset Distillation)は、非常にコンパクトな代表例の集合を学習することでデータセットのサイズを縮小する一般的なテクニックとなり、これらの例でトレーニングされたモデルは、完全なデータセットでトレーニングされたものに対して、理想的には同等のパフォーマンスを持つべきである。
データセットの蒸留に関する既存の研究の多くは、教師付きデータセットに焦点を絞っているが、私たちは代わりに、画像とその自己教師型の表現を蒸留セットに蒸留することを目指している。
この手法は自己監督データセット蒸留(Self-Supervised Dataset Distillation)と呼ばれ、実際のデータセットからリッチな情報を効果的に抽出し、クロスアーキテクチャの一般化性を高めた蒸留セットを生成する。
特に、元のデータセットの重要な特徴をより忠実かつコンパクトに保存するために、いくつかの新しい手法が提案されている。
1) 画像や表現を低次元の異なるベースで表現する革新的なパラメータ化を導入し, パラメータ化のための基本選択が重要な役割を担っていることを実験的に示す。
2) 自己教師型データセット蒸留の以前の作業において過小評価されている自己教師型学習における重要な要素であるデータ拡張のランダム性によって引き起こされる不安定性に, 所定の拡張を生かして対処する。
3) 同じ画像からの拡張ビューの表現間の接続をモデル化するために,軽量ネットワークを活用して,よりコンパクトな蒸留を行う。
また, 蒸留効率, クロスアーキテクチャの一般化, 伝達学習性能の観点から, 提案手法の優位性を検証した。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。