論文の概要: Small Aid, Big Leap: Efficient Test-Time Adaptation for Vision-Language Models with AdaptNet
- arxiv url: http://arxiv.org/abs/2506.02671v1
- Date: Tue, 03 Jun 2025 09:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.5128
- Title: Small Aid, Big Leap: Efficient Test-Time Adaptation for Vision-Language Models with AdaptNet
- Title(参考訳): 小型支援、Big Leap:AdaptNetを用いたビジョン言語モデルの効率的なテスト時間適応
- Authors: Xiao Chen, Jiazhen Huang, Qinting Jiang, Fanding Huang, Xianghua Fu, Jingyan Jiang, Zhi Wang,
- Abstract要約: テスト時適応(TTA)は、推論中に視覚言語モデル(VLM)の一般化能力を高める重要な手法として登場した。
本稿では,より軽量で学習しやすいAdaptNetを活用して,効率よくスケーラブルなモデル適応を実現する,新しいアダプタベースのTTAフレームワークであるSAILを紹介する。
- 参考スコア(独自算出の注目度): 5.977269026037707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time adaptation (TTA) has emerged as a critical technique for enhancing the generalization capability of vision-language models (VLMs) during inference. However, existing approaches often incur substantial computational costs and exhibit poor scalability, primarily due to sample-wise adaptation granularity and reliance on costly auxiliary designs such as data augmentation. To address these limitations, we introduce SAIL (Small Aid, Big Leap), a novel adapter-based TTA framework that leverages a lightweight, learnable AdaptNet to enable efficient and scalable model adaptation. As SAIL's core, a frozen pre-trained VLM collaborates with AdaptNet through a confidence-based interpolation weight, generating robust predictions during inference. These predictions serve as self-supervised targets to align AdaptNet's outputs through efficient batch-wise processing, dramatically reducing computational costs without modifying the VLM or requiring memory caches. To mitigate catastrophic forgetting during continual adaptation, we propose a gradient-aware reset strategy driven by a gradient drift indicator (GDI), which dynamically detects domain transitions and strategically resets AdaptNet for stable adaptation. Extensive experiments across diverse benchmarks on two scenarios demonstrate that SAIL achieves state-of-the-art performance while maintaining low computational costs. These results highlight SAIL's effectiveness, efficiency and scalability for real-world deployment. The code will be released upon acceptance.
- Abstract(参考訳): テスト時適応(TTA)は、推論中に視覚言語モデル(VLM)の一般化能力を高める重要な手法として登場した。
しかし、既存のアプローチは、データ拡張のようなコストのかかる補助設計に依存するサンプルワイド適応の粒度と、しばしばかなりの計算コストを発生させ、スケーラビリティの低下を示す。
これらの制限に対処するために、我々は、軽量で学習可能なAdaptNetを活用して効率的でスケーラブルなモデル適応を可能にするアダプタベースの新しいTTAフレームワークであるSAIL(Small Aid, Big Leap)を紹介します。
SAILのコアとして、凍結した事前訓練されたVLMは、信頼に基づく補間重みを通じてAdaptNetと協調し、推論中に堅牢な予測を生成する。
これらの予測は、効率的なバッチ処理によってAdaptNetの出力を調整し、VLMを変更したりメモリキャッシュを必要とせずに計算コストを劇的に削減する自己教師対象として機能する。
連続適応中の破滅的な忘れを緩和するため, 領域遷移を動的に検出し, 安定適応のためにAdaptNetを戦略的にリセットする勾配ドリフトインジケータ(GDI)によって駆動される勾配認識リセット戦略を提案する。
2つのシナリオにおける様々なベンチマークの広範な実験は、SAILが計算コストを低く保ちながら最先端のパフォーマンスを達成することを示した。
これらの結果から,SAIL の有効性,効率性,拡張性が示された。
コードは受理時にリリースされます。
関連論文リスト
- Memory Efficient Transformer Adapter for Dense Predictions [42.413108132475855]
本稿では,メモリ効率を向上し,メモリ消費を低減できるメモリ効率の良いViTアダプタMETAを提案する。
提案するブロック内では、モデルの頻繁な再形成操作を減らすために、断面形状の自己注意が使用される。
METAは予測される品質を大幅に向上し、新しい最先端の精度効率トレードオフを実現している。
論文 参考訳(メタデータ) (2025-02-04T03:19:33Z) - Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文 参考訳(メタデータ) (2024-12-16T07:33:23Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer [21.59850502993888]
教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。
この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。
本稿では、トレーニング可能なパラメータを削減し、調整可能な複雑性を実現するための効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:29:28Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Visual Prompt Tuning for Test-time Domain Adaptation [48.16620171809511]
本稿では,2つの重要な要素を持つデータ効率・プロンプト・チューニング(DePT)と呼ばれる簡単なレシピを提案する。
このようなパラメータ効率の良い微調整は,学習対象の雑音に過度に適応することなく,モデル表現を対象領域に効率よく適応させることができる。
パラメータがはるかに少ないため、DePTは主要な適応ベンチマークにおける最先端のパフォーマンスだけでなく、優れたデータ効率を示す。
論文 参考訳(メタデータ) (2022-10-10T16:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。