論文の概要: COLA: Context-aware Language-driven Test-time Adaptation
- arxiv url: http://arxiv.org/abs/2509.17598v1
- Date: Mon, 22 Sep 2025 11:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.335161
- Title: COLA: Context-aware Language-driven Test-time Adaptation
- Title(参考訳): COLA: コンテキスト対応言語駆動テストタイム適応
- Authors: Aiming Zhang, Tianyuan Yu, Liang Bai, Jun Tang, Yanming Guo, Yirun Ruan, Yun Zhou, Zhihe Lu,
- Abstract要約: 共有ラベルを必要とせずに、複数のターゲットドメインに適応可能な、より汎用的なソースモデルについて検討する。
これは、事前にトレーニングされた視覚言語モデル(VLM)、egno、CLIPを使用して、クラス記述にマッチして画像を認識することで実現される。
文脈認識型言語駆動型TTA(COLA)を提案する。
- 参考スコア(独自算出の注目度): 20.919416740369975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time adaptation (TTA) has gained increasing popularity due to its efficacy in addressing ``distribution shift'' issue while simultaneously protecting data privacy. However, most prior methods assume that a paired source domain model and target domain sharing the same label space coexist, heavily limiting their applicability. In this paper, we investigate a more general source model capable of adaptation to multiple target domains without needing shared labels. This is achieved by using a pre-trained vision-language model (VLM), \egno, CLIP, that can recognize images through matching with class descriptions. While the zero-shot performance of VLMs is impressive, they struggle to effectively capture the distinctive attributes of a target domain. To that end, we propose a novel method -- Context-aware Language-driven TTA (COLA). The proposed method incorporates a lightweight context-aware module that consists of three key components: a task-aware adapter, a context-aware unit, and a residual connection unit for exploring task-specific knowledge, domain-specific knowledge from the VLM and prior knowledge of the VLM, respectively. It is worth noting that the context-aware module can be seamlessly integrated into a frozen VLM, ensuring both minimal effort and parameter efficiency. Additionally, we introduce a Class-Balanced Pseudo-labeling (CBPL) strategy to mitigate the adverse effects caused by class imbalance. We demonstrate the effectiveness of our method not only in TTA scenarios but also in class generalisation tasks. The source code is available at https://github.com/NUDT-Bai-Group/COLA-TTA.
- Abstract(参考訳): テスト時適応(TTA)は、データのプライバシを同時に保護しながら‘配信シフト’問題に対処する効果により、人気が高まっている。
しかしながら、ほとんどの先行する手法は、ペアのソースドメインモデルとターゲットドメインが同じラベル空間を共有することを前提としており、適用性を大幅に制限している。
本稿では,共有ラベルを必要とせず,複数の対象領域に適応可能な,より汎用的なソースモデルについて検討する。
これは、事前にトレーニングされた視覚言語モデル(VLM)、 \egno、CLIPを使用して、クラス記述にマッチして画像を認識することで実現される。
VLMのゼロショット性能は印象的だが、ターゲットドメインの特長を効果的に捉えるのに苦労している。
そこで我々は,文脈認識型言語駆動型TTA (COLA) を提案する。
提案手法は,タスク対応アダプタ,コンテキスト対応ユニット,タスク固有の知識を探索する残接続ユニット,VLMからのドメイン固有の知識,VLMの事前知識の3つの主要なコンポーネントから構成される軽量なコンテキスト認識モジュールを含む。
なお、コンテキスト対応モジュールは凍結したVLMにシームレスに統合することができ、最小限の労力とパラメータ効率の両方を保証できる。
さらに,クラスバランスの悪影響を軽減するため,CBPL(Class-Balanced Pseudo-labeling)戦略を導入する。
本稿では,TTAシナリオだけでなく,クラス一般化タスクにおいても提案手法の有効性を示す。
ソースコードはhttps://github.com/NUDT-Bai-Group/COLA-TTAで入手できる。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - E2MPL:An Enduring and Efficient Meta Prompt Learning Framework for Few-shot Unsupervised Domain Adaptation [24.34819770490212]
Few-shot unsupervised domain adaptation (FS-UDA) は、ソースドメインからのラベル付きデータの限られた量を利用して、ラベルなしのターゲットドメインの正確な分類を可能にする。
本稿では,FS-UDAのためのEnduring and Efficient Meta-Prompt Learning (E2MPL) という新しいフレームワークを提案する。
このフレームワークでは,事前学習したCLIPモデルを特徴学習のバックボーンとして利用する。
論文 参考訳(メタデータ) (2024-07-04T17:13:06Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。