論文の概要: SeiT++: Masked Token Modeling Improves Storage-efficient Training
- arxiv url: http://arxiv.org/abs/2312.10105v5
- Date: Mon, 12 Aug 2024 08:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:28:28.998281
- Title: SeiT++: Masked Token Modeling Improves Storage-efficient Training
- Title(参考訳): SeiT++: Masked Token Modelingはストレージ効率のトレーニングを改善する
- Authors: Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim,
- Abstract要約: 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
- 参考スコア(独自算出の注目度): 36.95646819348317
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires expansive datasets, resulting in significant storage requirements. This storage challenge is a critical bottleneck for scaling up models. A recent breakthrough by SeiT proposed the use of Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. This approach achieved 90% of the performance of a model trained on full-pixel images with only 1% of the storage. While SeiT needs labeled data, its potential in scenarios beyond fully supervised learning remains largely untapped. In this paper, we extend SeiT by integrating Masked Token Modeling (MTM) for self-supervised pre-training. Recognizing that self-supervised approaches often demand more data due to the lack of labels, we introduce TokenAdapt and ColorAdapt. These methods facilitate comprehensive token-friendly data augmentation, effectively addressing the increased data requirements of self-supervised learning. We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, ADE-20k semantic segmentation, and robustness benchmarks. Experimental results demonstrate consistent performance improvement in diverse experiments, validating the effectiveness of our method. Code is available at https://github.com/naver-ai/seit.
- Abstract(参考訳): 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
しかし、高度に一般化可能で高性能な視覚モデルを実現するには、拡張データセットが必要であるため、かなりのストレージ要求が生じる。
このストレージの課題は、モデルをスケールアップする上で重要なボトルネックである。
SeiTによる最近のブレークスルーでは、視覚分類のためのネットワーク入力としてベクトル量子化(VQ)特徴ベクトル(トークン)が提案されている。
このアプローチは、ストレージの1%しか持たないフルピクセル画像でトレーニングされたモデルの性能の90%を達成した。
SeiTにはラベル付きデータが必要だが、完全に教師付き学習以上のシナリオの可能性はほとんどない。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
ラベルの欠如により、自己組織化されたアプローチがより多くのデータを要求することが多いことを認識し、TokenAdaptとColorAdaptを紹介します。
これらの手法は、トークンフレンドリーなデータ拡張を促進し、自己教師付き学習におけるデータ要求の増加に効果的に対処する。
我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ADE-20kセマンティックセグメンテーション,ロバストネスベンチマークなど,さまざまなシナリオにおけるアプローチを評価した。
実験の結果,様々な実験において一貫した性能向上が示され,本手法の有効性が検証された。
コードはhttps://github.com/naver-ai/seit.comから入手できる。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Object-Based Augmentation Improves Quality of Remote SensingSemantic
Segmentation [0.0]
本研究では,オブジェクトベース拡張の開発とテストに焦点をあてる。
本研究では,トレーニングサンプル数を大幅に増加させるジオリファレンス画像拡張のための新しいパイプラインを提案する。
提示されたパイプラインはオブジェクトベースの拡張(OBA)と呼ばれ、オブジェクトのセグメンテーションマスクを利用して新しい現実的なトレーニングシーンを生成します。
論文 参考訳(メタデータ) (2021-05-12T08:54:55Z) - Enabling the Network to Surf the Internet [13.26679087834881]
我々はモデルがインターネットをサーフィンできるフレームワークを開発した。
学習表現の一般化能力は,自己教師付き学習に不可欠である。
miniImageNet, tieredImageNet, Omniglotの実験により, 提案フレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2021-02-24T11:00:29Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。