論文の概要: FocusDD: Real-World Scene Infusion for Robust Dataset Distillation
- arxiv url: http://arxiv.org/abs/2501.06405v1
- Date: Sat, 11 Jan 2025 02:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:25.493856
- Title: FocusDD: Real-World Scene Infusion for Robust Dataset Distillation
- Title(参考訳): FocusDD:ロバストデータセット蒸留のための実世界のシーン注入
- Authors: Youbing Hu, Yun Cheng, Olga Saukh, Firat Ozdemir, Anqi Lu, Zhiqiang Cao, Zhijun Li,
- Abstract要約: 本稿では,FocusDD (FocusDD) を用いた高分解能非依存型データセット蒸留法を提案する。
FocusDDは、キー情報パッチを識別することで、蒸留データにおける多様性とリアリズムを実現する。
特に、FocusDDは、オブジェクト検出タスクに蒸留データセットを使用する最初の方法である。
- 参考スコア(独自算出の注目度): 9.90521231371829
- License:
- Abstract: Dataset distillation has emerged as a strategy to compress real-world datasets for efficient training. However, it struggles with large-scale and high-resolution datasets, limiting its practicality. This paper introduces a novel resolution-independent dataset distillation method Focus ed Dataset Distillation (FocusDD), which achieves diversity and realism in distilled data by identifying key information patches, thereby ensuring the generalization capability of the distilled dataset across different network architectures. Specifically, FocusDD leverages a pre-trained Vision Transformer (ViT) to extract key image patches, which are then synthesized into a single distilled image. These distilled images, which capture multiple targets, are suitable not only for classification tasks but also for dense tasks such as object detection. To further improve the generalization of the distilled dataset, each synthesized image is augmented with a downsampled view of the original image. Experimental results on the ImageNet-1K dataset demonstrate that, with 100 images per class (IPC), ResNet50 and MobileNet-v2 achieve validation accuracies of 71.0% and 62.6%, respectively, outperforming state-of-the-art methods by 2.8% and 4.7%. Notably, FocusDD is the first method to use distilled datasets for object detection tasks. On the COCO2017 dataset, with an IPC of 50, YOLOv11n and YOLOv11s achieve 24.4% and 32.1% mAP, respectively, further validating the effectiveness of our approach.
- Abstract(参考訳): データセットの蒸留は、効率的なトレーニングのために現実世界のデータセットを圧縮する戦略として登場した。
しかし、大規模で高解像度なデータセットに苦しむため、実用性は制限される。
本稿では,鍵情報パッチを識別することで,蒸留データにおける多様性と現実性を実現し,異なるネットワークアーキテクチャ間での蒸留データセットの一般化能力を確保できる,新しい解像度非依存型データセット蒸留法であるFocusDDを提案する。
特に、FocusDDはトレーニング済みのビジョントランスフォーマー(ViT)を利用して、キーイメージパッチを抽出し、単一の蒸留画像に合成する。
これらの蒸留画像は、複数のターゲットをキャプチャするが、分類タスクだけでなく、物体検出などの密集タスクにも適している。
蒸留データセットの一般化をさらに向上するため、各合成画像を元の画像のダウンサンプルビューで拡張する。
ImageNet-1Kデータセットの実験結果は、クラス毎の100イメージ(IPC)で、ResNet50とMobileNet-v2がそれぞれ71.0%と62.6%の検証精度を実現し、最先端の手法を2.8%と4.7%で上回ったことを示している。
特に、FocusDDは、オブジェクト検出タスクに蒸留データセットを使用する最初の方法である。
COCO2017データセットでは、ICCが50で、YOLOv11nとYOLOv11sはそれぞれ24.4%、32.1%のmAPを獲得し、アプローチの有効性をさらに検証した。
関連論文リスト
- Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios [60.470289963986716]
合成画像における重要な識別領域を強化するデータセット蒸留法であるEDFを提案する。
単純なデータセットでは、高活性化領域が画像の大部分を占めるのに対して、複雑なシナリオでは、これらの領域のサイズはずっと小さくなります。
特にEDFは、ImageNet-1Kサブセットのような複雑なシナリオにおいて、SOTAの結果を一貫して上回る。
論文 参考訳(メタデータ) (2024-10-22T17:13:19Z) - Label-Augmented Dataset Distillation [13.449340904911725]
ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
論文 参考訳(メタデータ) (2024-09-24T16:54:22Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。