論文の概要: Training-Free Test-Time Adaptation with Brownian Distance Covariance in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.23253v1
- Date: Fri, 30 Jan 2026 18:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.608184
- Title: Training-Free Test-Time Adaptation with Brownian Distance Covariance in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるブラウン距離共分散を用いた学習自由テスト時間適応
- Authors: Yi Zhang, Chun-Wun Cheng, Angelica I. Aviles-Rivero, Zhihai He, Liang-Jie Zhang,
- Abstract要約: ブラウン距離共分散(TaTa)を用いた無訓練テスト時間適応
TaTaはBrownian Distance Covarianceを利用して、トレーニングやバックプロパゲーションなしで視覚言語モデルを新しいドメインに動的に適応する。
多様なデータセットを対象とした実験により、TaTaはドメインの最先端性能とデータセット間の一般化を実現しつつ、計算コストを著しく削減することが示された。
- 参考スコア(独自算出の注目度): 16.03043781097689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models suffer performance degradation under domain shift, limiting real-world applicability. Existing test-time adaptation methods are computationally intensive, rely on back-propagation, and often focus on single modalities. To address these issues, we propose Training-free Test-Time Adaptation with Brownian Distance Covariance (TaTa). TaTa leverages Brownian Distance Covariance-a powerful statistical measure that captures both linear and nonlinear dependencies via pairwise distances-to dynamically adapt VLMs to new domains without training or back-propagation. This not only improves efficiency but also enhances stability by avoiding disruptive weight updates. TaTa further integrates attribute-enhanced prompting to improve vision-language inference with descriptive visual cues. Combined with dynamic clustering and pseudo-label refinement, it effectively recalibrates the model for novel visual contexts. Experiments across diverse datasets show that TaTa significantly reduces computational cost while achieving state-of-the-art performance in domain and cross-dataset generalization.
- Abstract(参考訳): 視覚言語モデルはドメインシフトによってパフォーマンスが低下し、現実の応用性が制限される。
既存のテスト時間適応法は計算集約的であり、バックプロパゲーションに依存し、しばしば単一のモダリティにフォーカスする。
これらの問題に対処するために、ブラウン距離共分散(TaTa)を用いた訓練不要なテスト時間適応を提案する。
TaTaはブラウン距離共分散(Brownian Distance Covariance)を利用した強力な統計測度であり、線形および非線形の依存関係をペア距離でキャプチャし、トレーニングやバックプロパゲーションなしでVLMを新しい領域に動的に適応させる。
これは効率を向上するだけでなく、破壊的な重み更新を避けることで安定性を向上させる。
TaTaはさらに、属性強化プロンプトを統合して、記述的な視覚的手がかりによる視覚言語推論を改善する。
動的クラスタリングと擬似ラベルリファインメントを組み合わせることで、新しい視覚的コンテキストのためのモデルを効果的に再分類する。
多様なデータセットを対象とした実験により、TaTaはドメインの最先端性能とデータセット間の一般化を実現しつつ、計算コストを著しく削減することが示された。
関連論文リスト
- Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-12-29T12:35:51Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Efficient Test-Time Scaling for Small Vision-Language Models [14.654047034885288]
小型ビジョンランゲージモデル (Small Vision-Language Models, VLM) は、より大きなモデルに対する計算的に効率的な代替手段を提供する。
既存の手法は典型的には計算的に要求され、小さなモデルの資源効率の高い設計目標と矛盾する。
外部監視よりもモデル内部の特徴を活用する新しい,効率的な2つのテストタイムスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2025-10-03T23:49:06Z) - ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Enhanced Online Test-time Adaptation with Feature-Weight Cosine Alignment [7.991720491452191]
オンラインテスト時間適応(OTTA)は、分散シフトを扱う効果的な戦略として登場した。
本稿では,双対目的損失関数を用いたコサインアライメント最適化手法を提案する。
提案手法は最先端技術より優れ,複数のデータセットに新しいベンチマークを設定できる。
論文 参考訳(メタデータ) (2024-05-12T05:57:37Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - BDC-Adapter: Brownian Distance Covariance for Better Vision-Language
Reasoning [26.75156572762166]
視覚言語推論の分野にブラウン距離共分散(BDC)を導入する。
BDCは全ての可能な関係をモデル化でき、特徴依存を測定するための堅牢な指標を提供する。
本稿では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。
論文 参考訳(メタデータ) (2023-09-03T19:45:02Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。