論文の概要: ATOM: Attention Mixer for Efficient Dataset Distillation
- arxiv url: http://arxiv.org/abs/2405.01373v1
- Date: Thu, 2 May 2024 15:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:05:24.814833
- Title: ATOM: Attention Mixer for Efficient Dataset Distillation
- Title(参考訳): ATOM: 効率的なデータセット蒸留のためのアテンションミキサー
- Authors: Samir Khaki, Ahmad Sajedi, Kai Wang, Lucy Z. Liu, Yuri A. Lawryshyn, Konstantinos N. Plataniotis,
- Abstract要約: 本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
- 参考スコア(独自算出の注目度): 17.370852204228253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in dataset distillation seek to minimize training expenses by generating a condensed synthetic dataset that encapsulates the information present in a larger real dataset. These approaches ultimately aim to attain test accuracy levels akin to those achieved by models trained on the entirety of the original dataset. Previous studies in feature and distribution matching have achieved significant results without incurring the costs of bi-level optimization in the distillation process. Despite their convincing efficiency, many of these methods suffer from marginal downstream performance improvements, limited distillation of contextual information, and subpar cross-architecture generalization. To address these challenges in dataset distillation, we propose the ATtentiOn Mixer (ATOM) module to efficiently distill large datasets using a mixture of channel and spatial-wise attention in the feature matching process. Spatial-wise attention helps guide the learning process based on consistent localization of classes in their respective images, allowing for distillation from a broader receptive field. Meanwhile, channel-wise attention captures the contextual information associated with the class itself, thus making the synthetic image more informative for training. By integrating both types of attention, our ATOM module demonstrates superior performance across various computer vision datasets, including CIFAR10/100 and TinyImagenet. Notably, our method significantly improves performance in scenarios with a low number of images per class, thereby enhancing its potential. Furthermore, we maintain the improvement in cross-architectures and applications such as neural architecture search.
- Abstract(参考訳): データセット蒸留における最近の研究は、より大きな実際のデータセットに存在する情報をカプセル化した凝縮された合成データセットを生成することで、トレーニングコストを最小化しようとしている。
これらのアプローチは、最終的に、オリジナルのデータセット全体に基づいてトレーニングされたモデルによって達成されたものに似た、テストの精度レベルを達成することを目的としている。
蒸留プロセスにおける二段階最適化のコストを発生させることなく, 機能および分布の整合性に関するこれまでの研究は, 有意義な成果を上げている。
説得力のある効率にもかかわらず、これらの手法の多くは、下流の性能改善、文脈情報の限られた蒸留、サブパークロスアーキテクチャの一般化に悩まされている。
これらの課題に対処するため, 特徴マッチングプロセスにおいて, チャネルと空間的注意の混合を用いて, 大規模データセットを効率的に抽出するATtentiOn Mixer (ATOM) モジュールを提案する。
空間的注意は、各画像内のクラスを一貫した局所化に基づいて学習プロセスを導くのに役立ち、より広い受容領域からの蒸留を可能にする。
一方、チャネルワイドアテンションは、クラス自体に関連するコンテキスト情報をキャプチャし、その合成画像が訓練に役立てられるようにしている。
どちらのタイプの注目も統合することで,CIFAR10/100やTinyImagenetなど,さまざまなコンピュータビジョンデータセットに対して優れたパフォーマンスを実現しています。
特に,本手法は,クラス毎の画像数が少ないシナリオの性能を著しく向上させ,その可能性を高める。
さらに,ニューラルネットワーク探索などのクロスアーキテクチャやアプリケーションの改善も維持する。
関連論文リスト
- Data-to-Model Distillation: Data-Efficient Learning Framework [14.44010988811002]
本稿では,データ・ツー・モデル蒸留(Data-to-Model Distillation, D2M)と呼ばれる新しいフレームワークを提案する。
提案手法は,高解像度の128x128 ImageNet-1Kまで効果的にスケールアップする。
論文 参考訳(メタデータ) (2024-11-19T20:10:28Z) - Curriculum Dataset Distillation [22.938976109450877]
本稿では,スケーラビリティと効率の調和を図るために,カリキュラムベースのデータセット蒸留フレームワークを提案する。
この枠組みは、合成画像を戦略的に蒸留し、単純なものから複雑なものへと遷移するカリキュラムに固執する。
本フレームワークでは,Tiny-ImageNetで11.1%,ImageNet-1Kで9.0%,ImageNet-21Kで7.3%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-05-15T07:27:14Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。