Fugu-MT 論文翻訳(概要): Forging Tokens for Improved Storage-efficient Training

論文の概要: Forging Tokens for Improved Storage-efficient Training

arxiv url: http://arxiv.org/abs/2312.10105v2
Date: Mon, 22 Jan 2024 14:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 19:54:03.989866
Title: Forging Tokens for Improved Storage-efficient Training
Title（参考訳）: 記憶効率向上のための鍛造トークン
Authors: Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim
Abstract要約: SeiTは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案している。 TokenAdaptとColorAdaptを紹介します。我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ロバストネスベンチマーク,ADE-20kセマンティックセマンティックセグメンテーションなど,さまざまなシナリオにおけるアプローチを評価した。
参考スコア（独自算出の注目度）: 39.64859737970321
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires extensive datasets, leading to large storage requirements. This storage challenge poses a critical bottleneck for scaling up vision models. Motivated by the success of discrete representations, SeiT proposes to use Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. However, applying traditional data augmentations to tokens faces challenges due to input domain shift. To address this issue, we introduce TokenAdapt and ColorAdapt, simple yet effective token-based augmentation strategies. TokenAdapt realigns token embedding space for compatibility with spatial augmentations, preserving the model's efficiency without requiring fine-tuning. Additionally, ColorAdapt addresses color-based augmentations for tokens inspired by Adaptive Instance Normalization (AdaIN). We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, robustness benchmarks, and ADE-20k semantic segmentation. Experimental results demonstrate consistent performance improvement in diverse experiments. Code is available at https://github.com/naver-ai/tokenadapt.
Abstract（参考訳）: 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。しかし、高度に一般化可能で高性能なビジョンモデルを実現するには、広範なデータセットが必要であるため、大きなストレージ要求が生じる。このストレージの課題は、ビジョンモデルをスケールアップする上で重要なボトルネックとなる。離散表現の成功に動機づけられたseitは、視覚分類のネットワーク入力としてベクトル量子化(vq)特徴ベクトル(トークン)を使用することを提案する。しかし、従来のデータ拡張をトークンに適用することは、入力ドメインシフトによる課題に直面します。この問題を解決するために、トークンベースの拡張戦略であるTokenAdaptとColorAdaptを紹介します。 TokenAdaptは、空間拡張と互換性のあるトークン埋め込みスペースを具現化し、微調整を必要とせずにモデルの効率を維持する。さらにColorAdaptは、Adaptive Instance Normalization (AdaIN)にインスパイアされたトークンのカラーベースの拡張に対処する。我々は,ストレージ効率の高いimagenet-1k分類,細粒度分類,ロバスト性ベンチマーク,ade-20kセマンティクスセグメンテーションなど,さまざまなシナリオでアプローチを評価した。実験結果は多様な実験において一貫した性能向上を示す。コードはhttps://github.com/naver-ai/tokenadaptで入手できる。

関連論文リスト

PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Object-Based Augmentation Improves Quality of Remote SensingSemantic Segmentation [0.0]
本研究では,オブジェクトベース拡張の開発とテストに焦点をあてる。本研究では,トレーニングサンプル数を大幅に増加させるジオリファレンス画像拡張のための新しいパイプラインを提案する。提示されたパイプラインはオブジェクトベースの拡張(OBA)と呼ばれ、オブジェクトのセグメンテーションマスクを利用して新しい現実的なトレーニングシーンを生成します。
論文参考訳（メタデータ） (2021-05-12T08:54:55Z)
Enabling the Network to Surf the Internet [13.26679087834881]
我々はモデルがインターネットをサーフィンできるフレームワークを開発した。学習表現の一般化能力は,自己教師付き学習に不可欠である。 miniImageNet, tieredImageNet, Omniglotの実験により, 提案フレームワークの優位性を実証した。
論文参考訳（メタデータ） (2021-02-24T11:00:29Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。