論文の概要: Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.21844v1
- Date: Wed, 28 May 2025 00:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.337546
- Title: Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation
- Title(参考訳): 開語彙セマンティックセマンティックセグメンテーションのための視覚言語モデルのテスト時間適応
- Authors: Mehrdad Noori, David Osowiechi, Gustavo Adolfo Vargas Hakim, Ali Bahri, Moslem Yazdanpanah, Sahar Dastani, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers,
- Abstract要約: テスト時間適応は、画像分類のための視覚言語モデルの文脈に広く関心を集めている。
本稿では,テスト時間中にセグメンテーションに適応する新しいTTA手法を提案する。
当社のアプローチは,任意のセグメンテーションネットワークのプラグアンドプレイとして使用することができ,追加のトレーニングデータやラベルは必要とせず,単一のテストサンプルでも有効である。
- 参考スコア(独自算出の注目度): 18.33878596057853
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, test-time adaptation has attracted wide interest in the context of vision-language models for image classification. However, to the best of our knowledge, the problem is completely overlooked in dense prediction tasks such as Open-Vocabulary Semantic Segmentation (OVSS). In response, we propose a novel TTA method tailored to adapting VLMs for segmentation during test time. Unlike TTA methods for image classification, our Multi-Level and Multi-Prompt (MLMP) entropy minimization integrates features from intermediate vision-encoder layers and is performed with different text-prompt templates at both the global CLS token and local pixel-wise levels. Our approach could be used as plug-and-play for any segmentation network, does not require additional training data or labels, and remains effective even with a single test sample. Furthermore, we introduce a comprehensive OVSS TTA benchmark suite, which integrates a rigorous evaluation protocol, seven segmentation datasets, and 15 common corruptions, with a total of 82 distinct test scenarios, establishing a standardized and comprehensive testbed for future TTA research in open-vocabulary segmentation. Our experiments on this suite demonstrate that our segmentation-tailored method consistently delivers significant gains over direct adoption of TTA classification baselines.
- Abstract(参考訳): 近年、画像分類のための視覚言語モデルの文脈において、テスト時間適応が広く関心を集めている。
しかし、我々の知る限りでは、この問題はOpen-Vocabulary Semantic Segmentation (OVSS)のような密集した予測タスクでは完全に見過ごされている。
そこで本研究では,テスト期間中のセグメンテーションにVLMを適用した新しいTTA手法を提案する。
画像分類のためのTTA法とは異なり、MLMP(Multi-Level and Multi-Prompt)エントロピー最小化は中間視覚エンコーダ層の特徴を統合し、グローバルCLSトークンと局所画素レベルの異なるテキストプロンプトテンプレートで実行される。
当社のアプローチは,任意のセグメンテーションネットワークのプラグアンドプレイとして使用することができ,追加のトレーニングデータやラベルは必要とせず,単一のテストサンプルでも有効である。
さらに,厳密な評価プロトコル,7つのセグメンテーションデータセット,15の共通汚職と82の異なるテストシナリオを統合した総合的なOVSS TTAベンチマークスイートを導入し,オープン語彙セグメンテーションにおける将来的なTTA研究のための標準化された総合的なテストベッドを確立する。
このスイートの実験により, セグメンテーション調整法はTTA分類基準の直接適用よりも, 常に大きな利益をもたらすことが示された。
関連論文リスト
- Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。