論文の概要: VLOD-TTA: Test-Time Adaptation of Vision-Language Object Detectors
- arxiv url: http://arxiv.org/abs/2510.00458v1
- Date: Wed, 01 Oct 2025 03:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.351194
- Title: VLOD-TTA: Test-Time Adaptation of Vision-Language Object Detectors
- Title(参考訳): VLOD-TTA:Vision-Language Object Detectorのテスト時間適応
- Authors: Atif Belal, Heitor R. Medeiros, Marco Pedersoli, Eric Granger,
- Abstract要約: 本稿では,視覚言語オブジェクト検出のためのテスト時間適応フレームワークであるVLOD-TTAを紹介する。
空間的コヒーレントな提案クラスタへの適応に集中するIoU重み付きエントロピー目的を提案する。
画像条件付きプロンプト選択を導入し、画像レベルの互換性によってプロンプトをランク付けする。
- 参考スコア(独自算出の注目度): 22.729339643008498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language object detectors (VLODs) such as YOLO-World and Grounding DINO achieve impressive zero-shot recognition by aligning region proposals with text representations. However, their performance often degrades under domain shift. We introduce VLOD-TTA, a test-time adaptation (TTA) framework for VLODs that leverages dense proposal overlap and image-conditioned prompt scores. First, an IoU-weighted entropy objective is proposed that concentrates adaptation on spatially coherent proposal clusters and reduces confirmation bias from isolated boxes. Second, image-conditioned prompt selection is introduced, which ranks prompts by image-level compatibility and fuses the most informative prompts with the detector logits. Our benchmarking across diverse distribution shifts -- including stylized domains, driving scenes, low-light conditions, and common corruptions -- shows the effectiveness of our method on two state-of-the-art VLODs, YOLO-World and Grounding DINO, with consistent improvements over the zero-shot and TTA baselines. Code : https://github.com/imatif17/VLOD-TTA
- Abstract(参考訳): YOLO-World や Grounding DINO のような視覚言語オブジェクト検出器 (VLOD) は、領域提案とテキスト表現を整合させることで、印象的なゼロショット認識を実現する。
しかし、そのパフォーマンスはドメインシフトによって劣化することが多い。
本稿では,高密度な提案重畳と画像条件付きプロンプトスコアを活用するテスト時間適応(TTA)フレームワークであるVLOD-TTAを紹介する。
まず、IoU重み付きエントロピーの目的として、空間的コヒーレントな提案クラスタへの適応に集中し、分離されたボックスからの確認バイアスを低減することを提案する。
次に、画像条件付きプロンプト選択を導入し、画像レベルの互換性によってプロンプトをランク付けし、最も情報性の高いプロンプトを検出器ログと融合させる。
我々のベンチマークでは、スタイル化されたドメイン、駆動シーン、低照度条件、一般的な汚職など、さまざまな分散シフトのベンチマークを行い、2つの最先端のVLOD、YOLO-WorldとGrounding DINOに対する手法の有効性を示し、ゼロショットとTTAベースラインよりも一貫した改善がなされた。
コード:https://github.com/imatif17/VLOD-TTA
関連論文リスト
- Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints [10.639191465547517]
無人航空機(UAV)には絶対的な位置決めが不可欠であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できない場合には困難である。
視線に基づく絶対的位置決め手法は、UAVの現在の視界を基準衛星マップで推定し、その位置を推定する手法として人気を博している。
既存の手法は主に従来の画像マッチングと低レベルの画像マッチングに依存しており、ソース間の相違や時間的変動による大きな違いによって困難に悩まされている。
セマンティック・アウェアと統合したUAV絶対位置推定のための階層的クロスソース画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T13:53:03Z) - Visual Modality Prompt for Adapting Vision-Language Object Detectors [12.082527769165965]
ゼロショット性能を劣化させることなく、視覚言語検出器を新たなモダリティに適応させる視覚的プロンプト戦略を提案する。
特にエンコーダ・デコーダの視覚的プロンプト戦略が提案され、推論に親しみやすいモダリティ・プロンプト・デカップリング残差の統合によりさらに強化される。
論文 参考訳(メタデータ) (2024-12-01T00:19:59Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。