論文の概要: Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale
From A New Perspective
- arxiv url: http://arxiv.org/abs/2306.13092v2
- Date: Sat, 28 Oct 2023 13:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:15:48.398971
- Title: Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale
From A New Perspective
- Title(参考訳): Squeeze, Recover and Relabel: Dataset Condensation at ImageNet Scale from a new perspective
- Authors: Zeyuan Yin and Eric Xing and Zhiqiang Shen
- Abstract要約: 50 IPC未満では、Tiny-ImageNetとImageNet-1Kデータセットの検証精度が最も高い42.5%と60.8%である。
我々のアプローチは、データ合成中に11.6$times$と6.4$times$のメモリ消費を少なくして、約52$times$ (ConvNet-4) と 16$times$ (ResNet-18) の速度で MTT を超える。
- 参考スコア(独自算出の注目度): 27.650434284271363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new dataset condensation framework termed Squeeze, Recover and
Relabel (SRe$^2$L) that decouples the bilevel optimization of model and
synthetic data during training, to handle varying scales of datasets, model
architectures and image resolutions for efficient dataset condensation. The
proposed method demonstrates flexibility across diverse dataset scales and
exhibits multiple advantages in terms of arbitrary resolutions of synthesized
images, low training cost and memory consumption with high-resolution
synthesis, and the ability to scale up to arbitrary evaluation network
architectures. Extensive experiments are conducted on Tiny-ImageNet and full
ImageNet-1K datasets. Under 50 IPC, our approach achieves the highest 42.5% and
60.8% validation accuracy on Tiny-ImageNet and ImageNet-1K, outperforming all
previous state-of-the-art methods by margins of 14.5% and 32.9%, respectively.
Our approach also surpasses MTT in terms of speed by approximately 52$\times$
(ConvNet-4) and 16$\times$ (ResNet-18) faster with less memory consumption of
11.6$\times$ and 6.4$\times$ during data synthesis. Our code and condensed
datasets of 50, 200 IPC with 4K recovery budget are available at
https://github.com/VILA-Lab/SRe2L.
- Abstract(参考訳): 本稿では,トレーニング中のモデルと合成データの2レベル最適化を分離し,データセットのスケール,モデルアーキテクチャ,および効率的なデータセット凝縮のための画像解像度の異なる処理を行う,srewish, recovery and relabel(sre$^2$l)という新しいデータセット凝縮フレームワークを提案する。
提案手法は,多様なデータセットスケールにまたがる柔軟性を示し,合成画像の任意の解像度,低トレーニングコスト,高解像度合成によるメモリ消費,任意の評価ネットワークアーキテクチャへのスケールアップ能力など,さまざまなメリットを示す。
Tiny-ImageNetと完全なImageNet-1Kデータセットで大規模な実験が行われている。
50 IPC未満では、Tiny-ImageNetとImageNet-1Kの検証精度は42.5%と60.8%で、従来の最先端手法をそれぞれ14.5%と32.9%で上回っている。
我々の手法は、データ合成中に11.6$\times$と6.4$\times$のメモリ消費を少なくして、約52$\times$ (ConvNet-4) と16$\times$ (ResNet-18) の速度で MTT を超える。
コードと4Kリカバリ予算付き50,200 IPCのデータセットは、https://github.com/VILA-Lab/SRe2Lで公開されています。
関連論文リスト
- Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching [74.75248610868685]
Teddyは、大規模なデータセットを扱うように設計されたTaylor近似データセット蒸留フレームワークである。
TeddyはTiny-ImageNetとオリジナルサイズのImageNet-1Kデータセット上で、最先端の効率性とパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-10T03:28:46Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Dataset Distillation via Curriculum Data Synthesis in Large Data Era [26.883100340763317]
本稿では,データ合成におけるカリキュラムデータ拡張によって実現された,シンプルで効果的なグローバル・ローカル・グラデーション・リファインメント・アプローチを提案する。
提案したモデルは、ImageNet-1K/21Kにおいて、SRe$2$L, TESLA, MTTといった現在の最先端の手法を4%以上のTop-1精度で上回り、初めて、フルデータのトレーニング対象に対するギャップを、絶対15%以下に削減する。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - Generalized Large-Scale Data Condensation via Various Backbone and Statistical Matching [24.45182507244476]
Generalized Various Backbone and Statistical Matching (G-VBSM) は、小規模なデータセットと大規模データセットの両方で高い性能を得るアルゴリズムである。
G-VBSMは、CIFAR-100で38.7%、128インチのConvNetで47.6%、ResNet18でTiny-ImageNetで47.6%、ResNet18で224x224 ImageNet-1kで31.4%のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-29T06:25:59Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文 参考訳(メタデータ) (2022-03-22T17:54:50Z) - Post-training deep neural network pruning via layer-wise calibration [70.65691136625514]
本論文では,自動合成フラクタル画像に基づくコンピュータビジョンモデルに対するデータフリーな拡張を提案する。
実データを使用する場合は、トレーニング後の設定で65%の間隔で8ビットの精度でImageNet上のResNet50モデルを取得できます。
論文 参考訳(メタデータ) (2021-04-30T14:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。