論文の概要: Forging Tokens for Improved Storage-efficient Training
- arxiv url: http://arxiv.org/abs/2312.10105v2
- Date: Mon, 22 Jan 2024 14:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:54:03.989866
- Title: Forging Tokens for Improved Storage-efficient Training
- Title(参考訳): 記憶効率向上のための鍛造トークン
- Authors: Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim
- Abstract要約: SeiTは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案している。
TokenAdaptとColorAdaptを紹介します。
我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ロバストネスベンチマーク,ADE-20kセマンティックセマンティックセグメンテーションなど,さまざまなシナリオにおけるアプローチを評価した。
- 参考スコア(独自算出の注目度): 39.64859737970321
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Deep Neural Network (DNN) models have significantly
improved performance across computer vision tasks. However, achieving highly
generalizable and high-performing vision models requires extensive datasets,
leading to large storage requirements. This storage challenge poses a critical
bottleneck for scaling up vision models. Motivated by the success of discrete
representations, SeiT proposes to use Vector-Quantized (VQ) feature vectors
(i.e., tokens) as network inputs for vision classification. However, applying
traditional data augmentations to tokens faces challenges due to input domain
shift. To address this issue, we introduce TokenAdapt and ColorAdapt, simple
yet effective token-based augmentation strategies. TokenAdapt realigns token
embedding space for compatibility with spatial augmentations, preserving the
model's efficiency without requiring fine-tuning. Additionally, ColorAdapt
addresses color-based augmentations for tokens inspired by Adaptive Instance
Normalization (AdaIN). We evaluate our approach across various scenarios,
including storage-efficient ImageNet-1k classification, fine-grained
classification, robustness benchmarks, and ADE-20k semantic segmentation.
Experimental results demonstrate consistent performance improvement in diverse
experiments. Code is available at https://github.com/naver-ai/tokenadapt.
- Abstract(参考訳): 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
しかし、高度に一般化可能で高性能なビジョンモデルを実現するには、広範なデータセットが必要であるため、大きなストレージ要求が生じる。
このストレージの課題は、ビジョンモデルをスケールアップする上で重要なボトルネックとなる。
離散表現の成功に動機づけられたseitは、視覚分類のネットワーク入力としてベクトル量子化(vq)特徴ベクトル(トークン)を使用することを提案する。
しかし、従来のデータ拡張をトークンに適用することは、入力ドメインシフトによる課題に直面します。
この問題を解決するために、トークンベースの拡張戦略であるTokenAdaptとColorAdaptを紹介します。
TokenAdaptは、空間拡張と互換性のあるトークン埋め込みスペースを具現化し、微調整を必要とせずにモデルの効率を維持する。
さらにColorAdaptは、Adaptive Instance Normalization (AdaIN)にインスパイアされたトークンのカラーベースの拡張に対処する。
我々は,ストレージ効率の高いimagenet-1k分類,細粒度分類,ロバスト性ベンチマーク,ade-20kセマンティクスセグメンテーションなど,さまざまなシナリオでアプローチを評価した。
実験結果は多様な実験において一貫した性能向上を示す。
コードはhttps://github.com/naver-ai/tokenadaptで入手できる。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Noise-Tolerant Unsupervised Adapter for Vision-Language Models [67.72101536572232]
NtUAは耐雑音性のない教師なし適応器で、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習することができる。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z) - Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文 参考訳(メタデータ) (2022-10-03T15:49:48Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。