論文の概要: OVA-Det: Open Vocabulary Aerial Object Detection with Image-Text Collaboration
- arxiv url: http://arxiv.org/abs/2408.12246v2
- Date: Mon, 10 Mar 2025 06:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:43.747094
- Title: OVA-Det: Open Vocabulary Aerial Object Detection with Image-Text Collaboration
- Title(参考訳): OVA-Det: 画像テキスト協調によるオープンボキャブラリ空中物体検出
- Authors: Guoting Wei, Xia Yuan, Yu Liu, Zhenhao Shang, Xizhe Xue, Peng Wang, Kelu Yao, Chunxia Zhao, Haokui Zhang, Rong Xiao,
- Abstract要約: OVA-Detは,高効率な空撮用オープンボキャブラリ検出器である。
まず、従来のカテゴリ回帰損失を置き換えるために、画像とテキストのアライメント損失を導入する。
次に,エンコーダの機能抽出プロセスを強化する軽量なテキスト誘導方式を提案する。
- 参考スコア(独自算出の注目度): 12.66046875297631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial object detection plays a crucial role in numerous applications. However, most existing methods focus on detecting predefined object categories, limiting their applicability in real-world open scenarios. In this paper, we extend aerial object detection to open scenarios through image-text collaboration and propose OVA-Det, a highly efficient open-vocabulary detector for aerial scenes. Specifically, we first introduce an image-to-text alignment loss to replace the conventional category regression loss, thereby eliminating category limitations. Next, we propose a lightweight text-guided strategy that enhances the feature extraction process in the encoder and enables queries to focus on class-relevant image features within the decoder, further improving detection accuracy without introducing significant additional costs. Extensive comparison experiments demonstrate that the proposed OVA-Det outperforms state-of-the-art methods on all three widely used benchmark datasets by a large margin. For instance, for zero-shot detection on DIOR, OVA-Det achieves 37.2 mAP and 79.8 Recall, 12.4 and 42.0 higher than that of YOLO-World. In addition, the inference speed of OVA-Det reaches 36 FPS on RTX 4090, meeting the real-time detection requirements for various applications. The code is available at \href{https://github.com/GT-Wei/OVA-Det}{https://github.com/GT-Wei/OVA-Det}.
- Abstract(参考訳): 航空機の物体検出は多くのアプリケーションにおいて重要な役割を担っている。
しかし、既存のほとんどのメソッドは、定義済みのオブジェクトカテゴリの検出に重点を置いており、実際のオープンシナリオにおける適用性を制限する。
本稿では,空中物体検出を画像とテキストの協調によるオープンシナリオに拡張し,高効率な空撮用オープンボキャブラリ検出器であるOVA-Detを提案する。
具体的には、まず、従来のカテゴリ回帰損失を置き換えるために、画像とテキストのアライメントの損失を導入し、カテゴリの制限を取り除く。
次に、エンコーダにおける特徴抽出プロセスを強化し、クエリがデコーダ内のクラス関連画像特徴に集中できるようにし、大幅な追加コストを伴わずに検出精度を向上する軽量テキスト誘導方式を提案する。
大規模な比較実験により、提案したOVA-Detは、広く使用されている3つのベンチマークデータセットにおいて、最先端の手法よりも大きなマージンで優れていることが示された。
例えば、DIORでゼロショット検出を行う場合、OVA-Det は 37.2 mAP と 79.8 リコール、12.4 と 42.0 は YOLO-World よりも高い。
さらに、OVA-Detの推論速度はRTX 4090上で36FPSに達し、様々なアプリケーションのリアルタイム検出要件を満たす。
コードは \href{https://github.com/GT-Wei/OVA-Det}{https://github.com/GT-Wei/OVA-Det} で公開されている。
関連論文リスト
- SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Zero-Shot Aerial Object Detection with Visual Description Regularization [15.14310599469107]
本稿では,視覚的記述規則化(DescReg)と呼ばれる空中物体検出のためのゼロショット手法を提案する。
航空物体の弱い意味的・視覚的相関を同定し,その視覚的外観を事前に記述した上で,課題に対処することを目的とする。
我々は、DIOR、xView、DOTAを含む3つの挑戦的空中物体検出データセットを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-02-28T10:58:01Z) - Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Rethinking Image Forgery Detection via Contrastive Learning and
Unsupervised Clustering [26.923409536155166]
画像偽造検出のためのFOCAL(FOrensic ContrAstive cLustering)法を提案する。
FOCALは対照的な学習と教師なしクラスタリングに基づいている。
その結果、FOCALは最先端の競合アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-08-18T05:05:30Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - UT-Net: Combining U-Net and Transformer for Joint Optic Disc and Cup
Segmentation and Glaucoma Detection [0.0]
緑内障は慢性の視覚疾患であり、永久的な不可逆性視覚障害を引き起こす可能性がある。
緑内障の早期発見には,カップ・ツー・ディスク比(CDR)の測定が重要な役割を担っている。
我々はUT-Netと呼ばれる新しいセグメンテーションパイプラインを提案し、U-Netとトランスフォーマーの双方の利点をエンコーディング層で利用し、次にアテンションゲートバイ線形融合方式を提案する。
論文 参考訳(メタデータ) (2023-03-08T23:21:19Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - SemanticVoxels: Sequential Fusion for 3D Pedestrian Detection using
LiDAR Point Cloud and Semantic Segmentation [4.350338899049983]
我々は、異なるレベルで融合を適用できるように、PointPaintingの一般化を提案する。
本研究では,セマンティックボクセルが3次元および鳥の視線歩行者検出ベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-25T14:52:32Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。