論文の概要: Visual Modality Prompt for Adapting Vision-Language Object Detectors
- arxiv url: http://arxiv.org/abs/2412.00622v1
- Date: Sun, 01 Dec 2024 00:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:16.260278
- Title: Visual Modality Prompt for Adapting Vision-Language Object Detectors
- Title(参考訳): ビジュアル・モダリティ・プロンプトを用いた視覚言語オブジェクト検出器の適応
- Authors: Heitor R. Medeiros, Atif Belal, Srikanth Muralidharan, Eric Granger, Marco Pedersoli,
- Abstract要約: ゼロショット性能を劣化させることなく、視覚言語検出器を新たなモダリティに適応させる視覚的プロンプト戦略を提案する。
特に、推論フレンドリーなタスク残余の統合によりさらに強化されたエンコーダ・デコーダ・ビジュアル・プロンプト戦略を提案する。
実験的な手法として、2つの視覚言語検出器、YOLO-World と Grounding DINO と、挑戦的赤外線 (LLVIP, FLIR) と深度 (NYUv2) のデータに対するモダリティ適応のベンチマークを行った。
- 参考スコア(独自算出の注目度): 12.082527769165965
- License:
- Abstract: The zero-shot performance of object detectors degrades when tested on different modalities, such as infrared and depth. While recent work has explored image translation techniques to adapt detectors to new modalities, these methods are limited to a single modality and apply only to traditional detectors. Recently, vision-language detectors, such as YOLO-World and Grounding DINO, have shown promising zero-shot capabilities, however, they have not yet been adapted for other visual modalities. Traditional fine-tuning approaches tend to compromise the zero-shot capabilities of the detectors. The visual prompt strategies commonly used for classification with vision-language models apply the same linear prompt translation to each image making them less effective. To address these limitations, we propose ModPrompt, a visual prompt strategy to adapt vision-language detectors to new modalities without degrading zero-shot performance. In particular, an encoder-decoder visual prompt strategy is proposed, further enhanced by the integration of inference-friendly task residuals, facilitating more robust adaptation. Empirically, we benchmark our method for modality adaptation on two vision-language detectors, YOLO-World and Grounding DINO, and on challenging infrared (LLVIP, FLIR) and depth (NYUv2) data, achieving performance comparable to full fine-tuning while preserving the model's zero-shot capability. Our code is available at: https://github.com/heitorrapela/ModPrompt
- Abstract(参考訳): 物体検出器のゼロショット性能は、赤外線や深度などの異なるモードで試験すると劣化する。
近年の研究では、検出器を新しいモダリティに適応させるための画像翻訳技術が検討されているが、これらの手法は単一のモダリティに制限されており、従来の検出器にのみ適用されている。
近年, YOLO-World や Grounding DINO などの視覚言語検出装置は, 望まれるゼロショット能力を示しているが, その他の視覚的モダリティには適応していない。
従来の微調整アプローチは検出器のゼロショット能力を損なう傾向がある。
視覚言語モデルを用いた分類によく用いられる視覚的プロンプト戦略は、各画像に同じ線形プロンプト変換を適用することにより、その効果が低下する。
これらの制約に対処するため、ゼロショット性能を劣化させることなく、視覚言語検出器を新しいモダリティに適応するための視覚的プロンプトであるModPromptを提案する。
特に、推論フレンドリーなタスク残余の統合によりさらに強化され、より堅牢な適応を容易にするエンコーダ・デコーダ・ビジュアル・プロンプト戦略が提案されている。
実験的な手法として、2つの視覚言語検出器(YOLO-World と Grounding DINO)と、挑戦的赤外線(LLVIP, FLIR)と深度(NYUv2)データ(NYUv2)をベンチマークし、モデルのゼロショット能力を保ちながらフル微調整に匹敵する性能を実現する。
私たちのコードは、https://github.com/heitorrapela/ModPromptで利用可能です。
関連論文リスト
- GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - An Application-Agnostic Automatic Target Recognition System Using Vision Language Models [32.858386851006316]
オープン語彙オブジェクト検出と分類モデルを用いた新しい自動ターゲット認識(ATR)システムを提案する。
このアプローチの主な利点は、非技術的エンドユーザーによって実行直前にターゲットクラスを定義することができることである。
所望のターゲットのナンスを自然言語で表現することは、トレーニングデータをほとんどあるいは全く持たないユニークなターゲットに役立ちます。
論文 参考訳(メタデータ) (2024-11-05T20:16:15Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。