論文の概要: Subspace Alignment for Vision-Language Model Test-time Adaptation
- arxiv url: http://arxiv.org/abs/2601.08139v1
- Date: Tue, 13 Jan 2026 02:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.018063
- Title: Subspace Alignment for Vision-Language Model Test-time Adaptation
- Title(参考訳): 視覚言語モデルテスト時間適応のための部分空間アライメント
- Authors: Zhichen Zeng, Wenxuan Bao, Xiao Lin, Ruizhong Qiu, Tianxin Wei, Xuying Ning, Yuchen Yan, Chen Luo, Monica Xiao Cheng, Jingrui He, Hanghang Tong,
- Abstract要約: 視覚言語モデル(VLM)は分布シフトに対して脆弱である。
既存のテスト時間適応法は、自己学習のための擬似ラベルとしてゼロショット予測に依存している。
両モードのセマンティック部分空間を整列させてゼロショット予測を強化するSubTTAを提案する。
- 参考スコア(独自算出の注目度): 82.83192844597593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs), despite their extraordinary zero-shot capabilities, are vulnerable to distribution shifts. Test-time adaptation (TTA) emerges as a predominant strategy to adapt VLMs to unlabeled test data on the fly. However, existing TTA methods heavily rely on zero-shot predictions as pseudo-labels for self-training, which can be unreliable under distribution shifts and misguide adaptation due to two fundamental limitations. First (Modality Gap), distribution shifts induce gaps between visual and textual modalities, making cross-modal relations inaccurate. Second (Visual Nuisance), visual embeddings encode rich but task-irrelevant noise that often overwhelms task-specific semantics under distribution shifts. To address these limitations, we propose SubTTA, which aligns the semantic subspaces of both modalities to enhance zero-shot predictions to better guide the TTA process. To bridge the modality gap, SubTTA extracts the principal subspaces of both modalities and aligns the visual manifold to the textual semantic anchor by minimizing their chordal distance. To eliminate visual nuisance, SubTTA projects the aligned visual features onto the task-specific textual subspace, which filters out task-irrelevant noise by constraining visual embeddings within the valid semantic span, and standard TTA is further performed on the purified space to refine the decision boundaries. Extensive experiments on various benchmarks and VLM architectures demonstrate the effectiveness of SubTTA, yielding an average improvement of 2.24% over state-of-the-art TTA methods.
- Abstract(参考訳): 視覚言語モデル(VLM)は、異常なゼロショット機能にもかかわらず、分散シフトに対して脆弱である。
テストタイム適応(TTA)は、未ラベルのテストデータにVLMを適用する主要な戦略として出現する。
しかし、既存のTTA法は、自己学習のための擬似ラベルとしてゼロショット予測に大きく依存しており、分散シフトや2つの基本的な制限による誤案内適応では信頼性が低い。
第一に(モダリティギャップ)、分配シフトは視覚的モダリティとテキスト的モダリティのギャップを生じさせ、モダリティ間の関係を不正確なものにする。
第2の (Visual Nuisance) 視覚的な埋め込みは、リッチだがタスク非関連なノイズを符号化し、分散シフトの下でタスク固有のセマンティクスを圧倒する。
これらの制約に対処するため、我々は、TTAプロセスをより良く導くため、ゼロショット予測を強化するため、両方のモダリティのセマンティック部分空間を整列するSubTTAを提案する。
モダリティギャップを埋めるために、SubTTAは両方のモダリティの主部分空間を抽出し、それらのコード距離を最小化し、視覚多様体をテキスト意味アンカーに整列させる。
視覚的ニュアンスを排除するため、SubTTAはタスク固有のテキストサブスペースにアライメントされた視覚的特徴を投影し、有効なセマンティックスパン内の視覚的埋め込みを制限してタスク非関連ノイズを除去する。
様々なベンチマークやVLMアーキテクチャに関する大規模な実験では、SubTTAの有効性が示され、最先端のTTA法よりも平均2.24%向上した。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks [43.473390101413166]
視覚変換のための自己監督学習(ViTs)は、近年、様々なコンピュータビジョンタスクの事前学習戦略としてかなりの可能性を示している。
本研究の目的は,画像分類とセグメント化タスクにまたがる未修正特徴の使用を体系的に評価することで,ギャップを埋めることである。
論文 参考訳(メタデータ) (2025-09-18T11:46:07Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。