論文の概要: Tokens on Demand: Token Condensation as Training-free Test-time Adaptation
- arxiv url: http://arxiv.org/abs/2410.14729v1
- Date: Wed, 16 Oct 2024 07:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:45.529672
- Title: Tokens on Demand: Token Condensation as Training-free Test-time Adaptation
- Title(参考訳): 需要額:訓練不要試験時間適応としてのトーケン凝縮
- Authors: Zixin Wang, Dong Gong, Sen Wang, Zi Huang, Yadan Luo,
- Abstract要約: Token Condensation as Adaptation (TCA) は、テスト時推論において視覚言語モデル(VLM)が遭遇する分散シフトを軽減するために設計されたトレーニング不要のアプローチである。
テスト時間適応におけるトークン効率を探索する最初の方法として、TCAは、クロスデータセットおよびアウト・オブ・ディストリビューション適応タスクにおける優れたパフォーマンスを一貫して示す。
- 参考スコア(独自算出の注目度): 43.09801987385207
- License:
- Abstract: In this work, we introduce Token Condensation as Adaptation (TCA), a training-free approach designed to mitigate distribution shifts encountered by vision-language models (VLMs) during test-time inference. TCA bridges distribution gaps at the patch level by condensing image tokens that exhibit low attentiveness to the <cls> token. Recognizing the <cls> token may correspond to universal concepts, TCA identifies and tracks the most reliable <cls> tokens that align specifically with target classes from historical data streams. To achieve this, we propose a context token reservoir (CTR), which retains tokens with the lowest uncertainty as ``anchors" to guide the preservation of class-relevant tokens during inference. These anchors, in turn, act as token-level classifiers to correct VLM predictions and improve visual-text alignment. Utilizing anchors sampled from CTR, TCA condenses tokens through two operations: (1) pruning class-irrelevant tokens that consistently rank low across all attention heads to reach cross-head consensus on their irrelevance, and (2) merging the remaining class-ambiguous tokens into representative centers using coreset selection, maintaining linear computational complexity. As the first method to explore token efficiency in test-time adaptation, TCA consistently demonstrates superior performance across cross-dataset and out-of-distribution adaptation tasks, reducing GFLOPs by 12.2% to 48.9% while achieving accuracy improvements up to 21.4% against the strongest baseline without introducing additional parameters.
- Abstract(参考訳): 本研究では,テスト時推論において視覚言語モデル(VLM)が遭遇する分散シフトを緩和する学習自由なアプローチであるToken Condensation as Adaptation (TCA)を紹介する。
TCAは,<cls>トークンに対する注意力の低い画像トークンを凝縮することにより,パッチレベルでの分布ギャップを埋める。
TCAは、<cls>トークンが普遍的な概念に対応する可能性があることを認識し、過去のデータストリームからターゲットクラスに特化して適合する最も信頼性の高い<cls>トークンを特定し、追跡する。
そこで本稿では,推論中のクラス関連トークンの保存を導くために,最も不確実性の低いトークンを<anchors>として保持するコンテキストトークン貯水池(CTR)を提案する。
これらのアンカーはトークンレベルの分類器として機能し、VLM予測を補正し、視覚テキストアライメントを改善する。
CTRから採取したアンカーを利用することで,(1)すべての注意点において常に低いランクのクラス非関連トークンを抽出し,それらの非関連性に関するクロスヘッドコンセンサスに達すること,(2)コアセット選択を用いて残りのクラス曖昧トークンを代表中心にマージし,線形計算複雑性を維持すること,の2つの操作を通じてトークンを凝縮する。
テスト時間適応におけるトークン効率を探索する最初の方法として、TCAは、クロスデータセットとアウト・オブ・ディストリビューション適応タスクにおける優れた性能を一貫して示し、GFLOPを12.2%から48.9%削減し、追加パラメータを導入することなく21.4%の精度向上を実現した。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [68.68025991850115]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Semantic Equitable Clustering: A Simple, Fast and Effective Strategy for Vision Transformer [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
我々は、textbf27Mパラメータと textbf4.4G FLOPs のみを用いて、印象的な textbf84.2% 画像分類精度が得られる多用途視覚バックボーン SecViT を提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。