論文の概要: SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel
Storage
- arxiv url: http://arxiv.org/abs/2303.11114v2
- Date: Mon, 11 Sep 2023 06:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:01:32.982062
- Title: SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel
Storage
- Title(参考訳): SeiT: 1%の画素ストレージを用いたトークンによるストレージ効率のよいビジョントレーニング
- Authors: Song Park and Sanghyuk Chun and Byeongho Heo and Wonjae Kim and
Sangdoo Yun
- Abstract要約: 大規模データセットに対する視覚分類器の記憶効率向上のための学習手法を提案する。
私たちのトークンストレージは、JPEG圧縮されたオリジナルの生ピクセルの1%しか必要としない。
ImageNet-1kによる実験結果から,本手法は,他のストレージ効率のトレーニング手法よりも大幅に優れており,大きなギャップがあることがわかった。
- 参考スコア(独自算出の注目度): 52.317406324182215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We need billion-scale images to achieve more generalizable and
ground-breaking vision models, as well as massive dataset storage to ship the
images (e.g., the LAION-4B dataset needs 240TB storage space). However, it has
become challenging to deal with unlimited dataset storage with limited storage
infrastructure. A number of storage-efficient training methods have been
proposed to tackle the problem, but they are rarely scalable or suffer from
severe damage to performance. In this paper, we propose a storage-efficient
training strategy for vision classifiers for large-scale datasets (e.g.,
ImageNet) that only uses 1024 tokens per instance without using the raw level
pixels; our token storage only needs <1% of the original JPEG-compressed raw
pixels. We also propose token augmentations and a Stem-adaptor module to make
our approach able to use the same architecture as pixel-based approaches with
only minimal modifications on the stem layer and the carefully tuned
optimization settings. Our experimental results on ImageNet-1k show that our
method significantly outperforms other storage-efficient training methods with
a large gap. We further show the effectiveness of our method in other practical
scenarios, storage-efficient pre-training, and continual learning. Code is
available at https://github.com/naver-ai/seit
- Abstract(参考訳): 汎用的で画期的なビジョンモデルを実現するには数十億のイメージが必要ですし、イメージを出荷するための巨大なデータセットも必要です(例えば、laion-4bデータセットは240tbのストレージスペースが必要です)。
しかし、限られたストレージインフラで無制限のデータセットストレージを扱うのは難しい。
この問題に対処するために、ストレージ効率の高いトレーニング方法がいくつか提案されているが、スケーラビリティやパフォーマンスに重大なダメージを負うことは稀である。
本稿では,1インスタンスあたり1024トークンのみを使用する大規模データセット(例: imagenet)に対する,視覚分類器のストレージ効率の高いトレーニング戦略を提案する。
またトークン拡張とStem-Adaptorモジュールを提案し,ステム層と慎重に調整された最適化設定を最小限に抑えて画素ベースのアプローチと同じアーキテクチャを利用できるようにした。
imagenet-1kにおける実験結果から,本手法は他のストレージ効率の高いトレーニング手法よりも大きな差があることがわかった。
さらに,本手法の有効性を,ストレージ効率のよい事前学習,継続学習など他の実践シナリオで示す。
コードはhttps://github.com/naver-ai/seitで入手できる。
関連論文リスト
- Scaling Training Data with Lossy Image Compression [8.05574597775852]
コンピュータビジョンでは、画像は本質的にアナログであるが、常に有限ビットでデジタル形式で保存される。
サンプルサイズと画像あたりのビット数によるテストエラーの連成進化を記述したストレージスケーリング法則を提案する。
我々は,この法則が画像圧縮のスタイリングモデル内にあることを証明し,二つのコンピュータビジョンタスクで実証的に検証する。
論文 参考訳(メタデータ) (2024-07-25T11:19:55Z) - Associative Memories in the Feature Space [68.1903319310263]
本稿では,低次元のセマンティック埋め込みのみを記憶するメモリモデルを提案する。
MNISTデータセット上の単純なタスクに対して,本手法の概念実証を行う。
論文 参考訳(メタデータ) (2024-02-16T16:37:48Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory [66.035487142452]
MTT(trajectory-matching-based method)は,ImageNet-1Kなどの大規模データセットに拡張可能であることを示す。
メモリフットプリントの6倍の削減を図り,MTTをImageNet-1Kにシームレスにスケールすることができる。
1つのGPU上で、ImageNet-1K上で50 IPC(Image Per Class)までスケールアップできる。
論文 参考訳(メタデータ) (2022-11-19T04:46:03Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。