論文の概要: Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2508.03388v2
- Date: Wed, 06 Aug 2025 16:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.407079
- Title: Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation
- Title(参考訳): 効率的なテスト時間適応のための情報拡張による中性化トークン集約
- Authors: Yizhe Xiong, Zihan Zhou, Yiwen Liang, Hui Chen, Zijia Lin, Tianxiang Hao, Fan Zhang, Jungong Han, Guiguang Ding,
- Abstract要約: TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
- 参考スコア(独自算出の注目度): 59.1067331268383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Adaptation (TTA) has emerged as an effective solution for adapting Vision Transformers (ViT) to distribution shifts without additional training data. However, existing TTA methods often incur substantial computational overhead, limiting their applicability in resource-constrained real-world scenarios. To reduce inference cost, plug-and-play token aggregation methods merge redundant tokens in ViTs to reduce total processed tokens. Albeit efficient, it suffers from significant performance degradation when directly integrated with existing TTA methods. We formalize this problem as Efficient Test-Time Adaptation (ETTA), seeking to preserve the adaptation capability of TTA while reducing inference latency. In this paper, we first provide a theoretical analysis from a novel mutual information perspective, showing that token aggregation inherently leads to information loss, which cannot be fully mitigated by conventional norm-tuning-based TTA methods. Guided by this insight, we propose to \textbf{N}eutralize Token \textbf{A}ggregation \textbf{v}ia \textbf{I}nformation \textbf{A}ugmentation (\textbf{NAVIA}). Specifically, we directly augment the [CLS] token embedding and incorporate adaptive biases into the [CLS] token in shallow layers of ViTs. We theoretically demonstrate that these augmentations, when optimized via entropy minimization, recover the information lost due to token aggregation. Extensive experiments across various out-of-distribution benchmarks demonstrate that NAVIA significantly outperforms state-of-the-art methods by over 2.5\%, while achieving an inference latency reduction of more than 20\%, effectively addressing the ETTA challenge.
- Abstract(参考訳): TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
しかし、既存のTTAメソッドは、しばしばかなりの計算オーバーヘッドを発生させ、リソース制約のある実世界のシナリオにおける適用性を制限している。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
効率的ではあるが、既存のTTAメソッドと直接統合した場合、パフォーマンスが大幅に低下する。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
本稿では,新しい相互情報の観点から理論的解析を行い,トークンの凝集が本質的に情報損失を招き,従来の標準チューニング方式のTTA法では完全に緩和できないことを示す。
この知見により、Token \textbf{A}ggregation \textbf{v}ia \textbf{I}nformation \textbf{A}ugmentation (\textbf{NAVIA})を提案する。
具体的には、[CLS]トークンの埋め込みを直接拡張し、[CLS]トークンに適応バイアスをViTの浅い層に組み込む。
理論的には、エントロピーの最小化によって最適化された場合、トークンの集合によって失われる情報を復元する。
様々なアウト・オブ・ディストリビューション・ベンチマークによる大規模な実験により、NAVIAは最先端の手法を2.5 %以上上回り、推論遅延を20 %以上削減し、ETTAの課題に効果的に対処していることが示された。
関連論文リスト
- SEVA: Leveraging Single-Step Ensemble of Vicinal Augmentations for Test-Time Adaptation [29.441669360316418]
テスト時間適応(TTA)は、推論中の迅速なモデル適応を通じて、分散シフトに対するモデルロバスト性を高めることを目的としている。
拡張戦略は、信頼性のあるサンプルの可能性を効果的に解き放つことができるが、急速に増大する計算コストは、彼らのリアルタイムアプリケーションを妨げる。
本稿では, 計算負担を増大させることなく, データの増大を生かして, 新たなTTAアプローチであるSingle-step Ensemble of Vicinal Augmentations(SEVA)を提案する。
論文 参考訳(メタデータ) (2025-05-07T02:58:37Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Multiple-Exit Tuning: Towards Inference-Efficient Adaptation for Vision Transformer [47.85315815897107]
マルチエクイットチューニング(MET)と呼ばれる推論効率のチューニング手法を提案する。
METは、複数の出口を事前訓練された視覚変換器(ViT)のバックボーンに統合する。
推論段階では、簡単なサンプルは早期の出口で終了し、十分なサンプルだけが最後の出口に流れるので、簡単なサンプルの計算コストを節約できる。
論文 参考訳(メタデータ) (2024-09-21T03:25:18Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。