論文の概要: Do Open-Vocabulary Detectors Transfer to Aerial Imagery? A Comparative Evaluation
- arxiv url: http://arxiv.org/abs/2601.22164v1
- Date: Tue, 13 Jan 2026 13:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.154014
- Title: Do Open-Vocabulary Detectors Transfer to Aerial Imagery? A Comparative Evaluation
- Title(参考訳): オープンボキャブラリ検出器は空中画像に転送されるか? : 比較評価
- Authors: Christos Tsourveloudis,
- Abstract要約: Open-vocabulary Object Detection (OVD)は、視覚言語モデルによる新しいカテゴリのゼロショット認識を可能にする。
LAE-80C航空データセットを用いて,5つの最先端OVDモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary object detection (OVD) enables zero-shot recognition of novel categories through vision-language models, achieving strong performance on natural images. However, transferability to aerial imagery remains unexplored. We present the first systematic benchmark evaluating five state-of-the-art OVD models on the LAE-80C aerial dataset (3,592 images, 80 categories) under strict zero-shot conditions. Our experimental protocol isolates semantic confusion from visual localization through Global, Oracle, and Single-Category inference modes. Results reveal severe domain transfer failure: the best model (OWLv2) achieves only 27.6% F1-score with 69% false positive rate. Critically, reducing vocabulary size from 80 to 3.2 classes yields 15x improvement, demonstrating that semantic confusion is the primary bottleneck. Prompt engineering strategies such as domain-specific prefixing and synonym expansion, fail to provide meaningful performance gains. Performance varies dramatically across datasets (F1: 0.53 on DIOR, 0.12 on FAIR1M), exposing brittleness to imaging conditions. These findings establish baseline expectations and highlight the need for domain-adaptive approaches in aerial OVD.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出(OVD)は、視覚言語モデルによる新規カテゴリのゼロショット認識を可能にし、自然画像上での強い性能を実現する。
しかし、航空画像への転送性は未調査のままである。
LAE-80C航空データセット(3,592画像,80カテゴリ)上の5つの最先端OVDモデルを厳密なゼロショット条件下で評価した最初の系統的ベンチマークを示す。
実験プロトコルは,Global,Oracle,Single-Category推論モードによる視覚的ローカライゼーションから意味的混乱を分離する。
最も良いモデル(OWLv2)は27.6%のF1スコアしか達成せず、偽陽性率は69%である。
決定的に、語彙サイズを80から3.2に下げると15倍に向上し、意味的混乱が主要なボトルネックであることを示す。
ドメイン固有のプレフィックスや同義語拡張といったプロンプトエンジニアリング戦略は、意味のあるパフォーマンス向上を提供するには至らなかった。
データセット間で性能は劇的に変化し(DIORでは0.53、FAIR1Mでは0.12)、撮像条件が不安定である。
これらの結果は,航空OVDにおけるドメイン適応アプローチの必要性を浮き彫りにした。
関連論文リスト
- AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors [6.6016630449883955]
Anomaly VFMは、任意の事前訓練されたVFMを強力なゼロショット・アノマリー検出器に変えるフレームワークである。
提案手法は,頑健な3段階合成データセット生成手法とパラメータ効率適応機構を組み合わせたものである。
9つの異なるデータセットの平均画像レベルAUROCは94.1%であり、以前の手法を3.3%上回っている。
論文 参考訳(メタデータ) (2026-01-28T12:02:58Z) - Cross-View Open-Vocabulary Object Detection in Aerial Imagery [48.851422992413184]
本研究では,地上画像からオープン語彙表現を適応させる新しい枠組みを提案し,空中画像における物体検出の課題を解決した。
コントラスト画像と画像のアライメントを導入し、空中と地上の埋め込みの類似性を高める。
我々のオープン語彙モデルは、DOTAv2上の+6.32 mAP、VisDrone上の+4.16 mAP、ゼロショット設定時のHRRSD上の+3.46 mAPの改善を実現する。
論文 参考訳(メタデータ) (2025-10-04T16:12:03Z) - Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation [21.54093527562344]
本稿では,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入する。
実験結果から,SOTAキャプションの精度は様々な設定で優れていた。
論文 参考訳(メタデータ) (2023-07-27T10:16:13Z) - Region-Aware Pretraining for Open-Vocabulary Object Detection with
Vision Transformers [44.03247177599605]
地域対応オープンボキャブラリビジョントランス(RO-ViT)
画像レベルの事前学習とオープン語彙オブジェクト検出のギャップを埋めるために、コントラスト的な画像テキスト事前学習のレシピを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:53:29Z) - Uncertainty-inspired Open Set Learning for Retinal Anomaly
Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。
しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。
UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文 参考訳(メタデータ) (2023-04-08T10:47:41Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。