論文の概要: Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection
- arxiv url: http://arxiv.org/abs/2602.07827v1
- Date: Sun, 08 Feb 2026 05:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.820305
- Title: Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection
- Title(参考訳): Open Text Aerial Detection:Aerial Visual Grounding and Detectionのための統一フレームワーク
- Authors: Guoting Wei, Xia Yuan, Yang Zhou, Haizhao Jing, Yu Liu, Xianbiao Qi, Chunxia Zhao, Haokui Zhang, Rong Xiao,
- Abstract要約: OVAD(Open-Vocabulary Aerial Detection)とRSVG(Remote Sensing Visual Grounding)は,航空シーン理解のための2つの重要なパラダイムとして登場した。
両パラダイムを結合型アーキテクチャにブリッジする最初の統一フレームワークであるOTA-Detを提案する。
- 参考スコア(独自算出の注目度): 19.500762008628254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Aerial Detection (OVAD) and Remote Sensing Visual Grounding (RSVG) have emerged as two key paradigms for aerial scene understanding. However, each paradigm suffers from inherent limitations when operating in isolation: OVAD is restricted to coarse category-level semantics, while RSVG is structurally limited to single-target localization. These limitations prevent existing methods from simultaneously supporting rich semantic understanding and multi-target detection. To address this, we propose OTA-Det, the first unified framework that bridges both paradigms into a cohesive architecture. Specifically, we introduce a task reformulation strategy that unifies task objectives and supervision mechanisms, enabling joint training across datasets from both paradigms with dense supervision signals. Furthermore, we propose a dense semantic alignment strategy that establishes explicit correspondence at multiple granularities, from holistic expressions to individual attributes, enabling fine-grained semantic understanding. To ensure real-time efficiency, OTA-Det builds upon the RT-DETR architecture, extending it from closed-set detection to open-text detection by introducing several high efficient modules, achieving state-of-the-art performance on six benchmarks spanning both OVAD and RSVG tasks while maintaining real-time inference at 34 FPS.
- Abstract(参考訳): OVAD(Open-Vocabulary Aerial Detection)とRSVG(Remote Sensing Visual Grounding)は,航空シーン理解のための2つの重要なパラダイムとして登場した。
OVADは粗いカテゴリレベルのセマンティクスに制限され、RSVGは単一ターゲットのローカライゼーションに制限される。
これらの制限は、既存のメソッドがリッチなセマンティック理解とマルチターゲット検出を同時にサポートするのを防ぐ。
この問題を解決するために,両パラダイムを結合型アーキテクチャにブリッジする最初の統一フレームワークであるOTA-Detを提案する。
具体的には、タスク目標と監視機構を統一するタスク改革戦略を導入し、密集した監視信号を持つ両方のパラダイムからデータセット間の共同トレーニングを可能にする。
さらに,包括的表現から個々の属性まで,複数の粒度で明示的な対応性を確立する密接なセマンティックアライメント戦略を提案し,より詳細なセマンティック理解を実現する。
リアルタイム効率を確保するため、OTA-DetはRT-DETRアーキテクチャ上に構築され、いくつかの高効率モジュールを導入してクローズドセット検出からオープンテキスト検出に拡張し、34 FPSでリアルタイム推論を維持しながら、OVADとRSVGのタスクにまたがる6つのベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [26.546610806602803]
Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。
我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
論文 参考訳(メタデータ) (2026-01-31T06:27:57Z) - Integrating Diverse Assignment Strategies into DETRs [61.61489761918158]
ラベル割り当ては、特にDETRスタイルのフレームワークにおいて、オブジェクト検出器において重要なコンポーネントである。
我々は,任意のDETR型検出器に多様な割り当て戦略をシームレスに統合する,フレキシブルで軽量なフレームワークであるLoRA-DETRを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:28:54Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery [10.196580289786414]
リモートセンシングにおけるオープン・セットの土地被覆分析は、きめ細かい空間的局所化とセマンティック・オープンな分類を実現する能力を必要とする。
我々は,アノテーションのないオープンセット土地被覆発見,セグメンテーション,記述のための3段階統合フレームワークOSDAを紹介する。
我々の研究は、動的土地被覆モニタリングのためのスケーラブルで解釈可能なソリューションを提供し、自動地図更新と大規模地球観測分析の強力な可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T06:23:56Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。