論文の概要: Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2602.01954v1
- Date: Mon, 02 Feb 2026 11:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.095052
- Title: Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images
- Title(参考訳): オープンな語彙を超えて:リモートセンシング画像におけるオブジェクト検出のためのマルチモーダルプロンプト
- Authors: Shuai Yang, Ziyue Huang, Jiaxin Chen, Qingjie Liu, Yunhong Wang,
- Abstract要約: リモートセンシングにおけるオープンボキャブラリオブジェクト検出は、テキストのみに依存してターゲットカテゴリを指定する。
実際には、タスクやアプリケーション固有のカテゴリセマンティクスによって、リモートセンシングのシナリオでは、この仮定は分解されることが多い。
テキストのみのプロンプト以外のカテゴリ仕様を再構成するマルチモーダルなオープン語彙検出フレームワークRS-MPODを提案する。
- 参考スコア(独自算出の注目度): 52.7196029918473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection in remote sensing commonly relies on text-only prompting to specify target categories, implicitly assuming that inference-time category queries can be reliably grounded through pretraining-induced text-visual alignment. In practice, this assumption often breaks down in remote sensing scenarios due to task- and application-specific category semantics, resulting in unstable category specification under open-vocabulary settings. To address this limitation, we propose RS-MPOD, a multimodal open-vocabulary detection framework that reformulates category specification beyond text-only prompting by incorporating instance-grounded visual prompts, textual prompts, and their multimodal integration. RS-MPOD introduces a visual prompt encoder to extract appearance-based category cues from exemplar instances, enabling text-free category specification, and a multimodal fusion module to integrate visual and textual information when both modalities are available. Extensive experiments on standard, cross-dataset, and fine-grained remote sensing benchmarks show that visual prompting yields more reliable category specification under semantic ambiguity and distribution shifts, while multimodal prompting provides a flexible alternative that remains competitive when textual semantics are well aligned.
- Abstract(参考訳): リモートセンシングにおけるオープンボキャブラリオブジェクト検出は、通常、テキストのみに頼ってターゲットカテゴリを指定し、推論時カテゴリクエリが事前学習によるテキスト-視覚アライメントによって確実にグラウンド化可能であることを暗黙的に仮定する。
実際には、この仮定はタスクやアプリケーション固有のカテゴリセマンティクスによってリモートセンシングのシナリオで分解されることが多く、その結果、オープン語彙設定の下で不安定なカテゴリ仕様が生まれる。
この制限に対処するため, RS-MPODを提案する。RS-MPODは, テキストのみのプロンプト, テキストプロンプト, およびマルチモーダル統合を組み込むことにより, テキストのみのプロンプト以上のカテゴリ仕様を再構成するマルチモーダルなオープンボキャブラリ検出フレームワークである。
RS-MPODは、視覚的プロンプトエンコーダを導入し、外見に基づくカテゴリキューを例のインスタンスから抽出し、テキストのないカテゴリ仕様を可能にする。
標準、クロスデータセット、微粒なリモートセンシングベンチマークの広範な実験により、視覚的プロンプトはセマンティックなあいまいさと分布シフトの下でより信頼性の高いカテゴリ仕様をもたらすが、マルチモーダルプロンプトはテキストのセマンティクスが適切に整合している場合に競争力のある柔軟な代替手段を提供する。
関連論文リスト
- Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Exploration of visual prompt in Grounded pre-trained open-set detection [6.560519631555968]
いくつかのラベル付き画像から新しいカテゴリ知識を学習する新しい視覚的プロンプト手法を提案する。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-14T11:52:35Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。