論文の概要: RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes
- arxiv url: http://arxiv.org/abs/2502.00392v1
- Date: Sat, 01 Feb 2025 10:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:47.375514
- Title: RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes
- Title(参考訳): RefDrone: ドローンシーンにおける表現理解の参照ベンチマーク
- Authors: Zhichao Sun, Yepeng Liu, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu,
- Abstract要約: RefDroneはドローンシーンのRECベンチマークである。
RDAgentは、RECタスクのための半自動アノテーションツールである。
NGDINOは、マルチターゲットおよびノーターゲットケースを扱うために設計された新しい手法である。
- 参考スコア(独自算出の注目度): 44.34174574185866
- License:
- Abstract: Drones have become prevalent robotic platforms with diverse applications, showing significant potential in Embodied Artificial Intelligence (Embodied AI). Referring Expression Comprehension (REC) enables drones to locate objects based on natural language expressions, a crucial capability for Embodied AI. Despite advances in REC for ground-level scenes, aerial views introduce unique challenges including varying viewpoints, occlusions and scale variations. To address this gap, we introduce RefDrone, a REC benchmark for drone scenes. RefDrone reveals three key challenges in REC: 1) multi-scale and small-scale target detection; 2) multi-target and no-target samples; 3) complex environment with rich contextual expressions. To efficiently construct this dataset, we develop RDAgent (referring drone annotation framework with multi-agent system), a semi-automated annotation tool for REC tasks. RDAgent ensures high-quality contextual expressions and reduces annotation cost. Furthermore, we propose Number GroundingDINO (NGDINO), a novel method designed to handle multi-target and no-target cases. NGDINO explicitly learns and utilizes the number of objects referred to in the expression. Comprehensive experiments with state-of-the-art REC methods demonstrate that NGDINO achieves superior performance on both the proposed RefDrone and the existing gRefCOCO datasets. The dataset and code will be publicly at https://github.com/sunzc-sunny/refdrone.
- Abstract(参考訳): ドローンは多様なアプリケーションを持つロボットプラットフォームとして普及し、Embodied Artificial Intelligence (Embodied AI)において大きな可能性を秘めている。
Referring Expression Comprehension (REC)は、自然言語表現に基づくオブジェクトの発見を可能にする。
地上レベルのシーンにおけるRECの進歩にもかかわらず、航空ビューは様々な視点、閉塞、スケールのバリエーションを含むユニークな課題を導入している。
このギャップに対処するために、ドローンシーンのRECベンチマークであるRefDroneを紹介する。
RefDrone氏はRECで3つの重要な課題を明らかにした。
1) マルチスケール及び小型目標検出
2) マルチターゲット及びノーターゲットサンプル
3) 豊かな文脈表現を伴う複雑な環境。
このデータセットを効率的に構築するために、RECタスクのための半自動アノテーションツールであるRDAgent(マルチエージェントシステムによるドローンアノテーションフレームワークの参照)を開発した。
RDAgentは高品質な文脈表現を保証し、アノテーションのコストを削減する。
また,Number GroundingDino (NGDINO)を提案する。
NGDINOは、式で参照されるオブジェクトの数を明示的に学習し、利用する。
最先端のREC手法による総合的な実験により、NGDINOは提案されたRefDroneと既存のgRefCOCOデータセットの両方で優れた性能を発揮することが示された。
データセットとコードはhttps://github.com/sunzc-sunny/refdrone.comで公開される。
関連論文リスト
- Learning Dynamic Local Context Representations for Infrared Small Target Detection [5.897465234102489]
複雑な背景、低信号/クラッタ比、ターゲットサイズと形状の違いにより、赤外線小目標検出(ISTD)は困難である。
ISTDの動的局所文脈表現を学習する新しい手法であるLCRNetを提案する。
1.65Mのパラメータだけで、LCRNetは最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-23T09:06:27Z) - DroBoost: An Intelligent Score and Model Boosting Method for Drone Detection [1.2564343689544843]
ドローン検出は、画像の可視性や品質が好ましくないような、困難な物体検出タスクである。
私たちの仕事は、いくつかの改善を組み合わせることで、以前のアプローチを改善します。
提案された技術は、Drone vs. Bird Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2024-06-30T20:49:56Z) - C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks [23.133250476580038]
衝突回避、敵のドローン対策、捜索救助活動など、さまざまな用途において、視覚に基づくドローンからドローンまでの検出システムは不可欠である。
ドローンの検出には、小さなオブジェクトのサイズ、歪み、リアルタイム処理要求など、ユニークな課題がある。
本稿では,視覚変換器に基づく粗大な検出手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T05:51:21Z) - Multi-Stage Fusion Architecture for Small-Drone Localization and Identification Using Passive RF and EO Imagery: A Case Study [0.1872664641238533]
本研究では、受動無線周波数(RF)と電気光学(EO)画像データを用いた多段階融合アーキテクチャを開発する。
教師なしの深層学習に基づく手法と、教師なしの地上/後方分離手法を探索し、挑戦的な環境に対処する。
提案した融合アーキテクチャを検証し,その範囲で追跡性能を定量化する。
論文 参考訳(メタデータ) (2024-03-30T22:53:28Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。