論文の概要: Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
- arxiv url: http://arxiv.org/abs/2408.09110v1
- Date: Sat, 17 Aug 2024 06:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:37:12.396229
- Title: Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
- Title(参考訳): 地球上のあらゆる場所:リモートセンシングコミュニティのためのオープンボキャブラリオブジェクト検出の改善
- Authors: Jiancheng Pan, Yanxing Liu, Yuqian Fu, Muyuan Ma, Jiaohao Li, Danda Pani Paudel, Luc Van Gool, Xiaomeng Huang,
- Abstract要約: LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
- 参考スコア(独自算出の注目度): 50.16478515591924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection, particularly open-vocabulary object detection, plays a crucial role in Earth sciences, such as environmental monitoring, natural disaster assessment, and land-use planning. However, existing open-vocabulary detectors, primarily trained on natural-world images, struggle to generalize to remote sensing images due to a significant data domain gap. Thus, this paper aims to advance the development of open-vocabulary object detection in remote sensing community. To achieve this, we first reformulate the task as Locate Anything on Earth (LAE) with the goal of detecting any novel concepts on Earth. We then developed the LAE-Label Engine which collects, auto-annotates, and unifies up to 10 remote sensing datasets creating the LAE-1M - the first large-scale remote sensing object detection dataset with broad category coverage. Using the LAE-1M, we further propose and train the novel LAE-DINO Model, the first open-vocabulary foundation object detector for the LAE task, featuring Dynamic Vocabulary Construction (DVC) and Visual-Guided Text Prompt Learning (VisGT) modules. DVC dynamically constructs vocabulary for each training batch, while VisGT maps visual features to semantic space, enhancing text features. We comprehensively conduct experiments on established remote sensing benchmark DIOR, DOTAv2.0, as well as our newly introduced 80-class LAE-80C benchmark. Results demonstrate the advantages of the LAE-1M dataset and the effectiveness of the LAE-DINO method.
- Abstract(参考訳): オブジェクト検出、特にオープン語彙オブジェクト検出は、環境モニタリング、自然災害評価、土地利用計画といった地球科学において重要な役割を果たす。
しかし、既存のオープンボキャブラリ検出器は、主に自然界の画像に基づいて訓練されており、データ領域の差が大きいため、リモートセンシング画像への一般化に苦慮している。
そこで本稿は,リモートセンシングコミュニティにおけるオープン語彙オブジェクト検出の進展を目指す。
これを達成するために、我々はまず、地球上の新しい概念を検出することを目的として、Locate Anything on Earth (LAE)としてタスクを再構築する。
次に、LAE-1Mを作成した最大10個のリモートセンシングデータセットを収集、自動アノテーション、統合するLAE-Label Engineを開発しました。
LAE-1Mを用いて、動的語彙構築(DVC)とビジュアルガイドテキストプロンプト学習(VisGT)モジュールを特徴とする、RAEタスクのための最初のオープン語彙ベースオブジェクト検出器であるRAE-DINOモデルの提案と訓練を行う。
DVCはトレーニングバッチ毎に語彙を動的に構築し、VisGTは視覚的特徴を意味空間にマッピングし、テキスト機能を強化する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに導入された80クラスのLEE-80Cベンチマークを総合的に実施する。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
関連論文リスト
- Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Hyperbolic Learning with Synthetic Captions for Open-World Detection [26.77840603264043]
本稿では,視覚言語モデル(VLM)から知識を伝達して,オープン語彙記述を自動的に強化することを提案する。
具体的には、予め訓練したVLMを用いて高濃度の合成キャプションをブートストラップし、画像の異なる領域について豊富な記述を提供する。
また,視覚とキャプションの埋め込みの階層構造を付加する,新しい双曲型視覚言語学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T17:06:22Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。