論文の概要: Tokens on Demand: Token Condensation as Training-free Test-time Adaptation
- arxiv url: http://arxiv.org/abs/2410.14729v1
- Date: Wed, 16 Oct 2024 07:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:45.529672
- Title: Tokens on Demand: Token Condensation as Training-free Test-time Adaptation
- Title(参考訳): 需要額:訓練不要試験時間適応としてのトーケン凝縮
- Authors: Zixin Wang, Dong Gong, Sen Wang, Zi Huang, Yadan Luo,
- Abstract要約: Token Condensation as Adaptation (TCA) は、テスト時推論において視覚言語モデル(VLM)が遭遇する分散シフトを軽減するために設計されたトレーニング不要のアプローチである。
テスト時間適応におけるトークン効率を探索する最初の方法として、TCAは、クロスデータセットおよびアウト・オブ・ディストリビューション適応タスクにおける優れたパフォーマンスを一貫して示す。
- 参考スコア(独自算出の注目度): 43.09801987385207
- License:
- Abstract: In this work, we introduce Token Condensation as Adaptation (TCA), a training-free approach designed to mitigate distribution shifts encountered by vision-language models (VLMs) during test-time inference. TCA bridges distribution gaps at the patch level by condensing image tokens that exhibit low attentiveness to the <cls> token. Recognizing the <cls> token may correspond to universal concepts, TCA identifies and tracks the most reliable <cls> tokens that align specifically with target classes from historical data streams. To achieve this, we propose a context token reservoir (CTR), which retains tokens with the lowest uncertainty as ``anchors" to guide the preservation of class-relevant tokens during inference. These anchors, in turn, act as token-level classifiers to correct VLM predictions and improve visual-text alignment. Utilizing anchors sampled from CTR, TCA condenses tokens through two operations: (1) pruning class-irrelevant tokens that consistently rank low across all attention heads to reach cross-head consensus on their irrelevance, and (2) merging the remaining class-ambiguous tokens into representative centers using coreset selection, maintaining linear computational complexity. As the first method to explore token efficiency in test-time adaptation, TCA consistently demonstrates superior performance across cross-dataset and out-of-distribution adaptation tasks, reducing GFLOPs by 12.2% to 48.9% while achieving accuracy improvements up to 21.4% against the strongest baseline without introducing additional parameters.
- Abstract(参考訳): 本研究では,テスト時推論において視覚言語モデル(VLM)が遭遇する分散シフトを緩和する学習自由なアプローチであるToken Condensation as Adaptation (TCA)を紹介する。
TCAは,<cls>トークンに対する注意力の低い画像トークンを凝縮することにより,パッチレベルでの分布ギャップを埋める。
TCAは、<cls>トークンが普遍的な概念に対応する可能性があることを認識し、過去のデータストリームからターゲットクラスに特化して適合する最も信頼性の高い<cls>トークンを特定し、追跡する。
そこで本稿では,推論中のクラス関連トークンの保存を導くために,最も不確実性の低いトークンを<anchors>として保持するコンテキストトークン貯水池(CTR)を提案する。
これらのアンカーはトークンレベルの分類器として機能し、VLM予測を補正し、視覚テキストアライメントを改善する。
CTRから採取したアンカーを利用することで,(1)すべての注意点において常に低いランクのクラス非関連トークンを抽出し,それらの非関連性に関するクロスヘッドコンセンサスに達すること,(2)コアセット選択を用いて残りのクラス曖昧トークンを代表中心にマージし,線形計算複雑性を維持すること,の2つの操作を通じてトークンを凝縮する。
テスト時間適応におけるトークン効率を探索する最初の方法として、TCAは、クロスデータセットとアウト・オブ・ディストリビューション適応タスクにおける優れた性能を一貫して示し、GFLOPを12.2%から48.9%削減し、追加パラメータを導入することなく21.4%の精度向上を実現した。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs [24.991684983495542]
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
論文 参考訳(メタデータ) (2024-03-22T19:41:26Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。