論文の概要: RefAerial: A Benchmark and Approach for Referring Detection in Aerial Images
- arxiv url: http://arxiv.org/abs/2604.20543v1
- Date: Wed, 22 Apr 2026 13:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.138534
- Title: RefAerial: A Benchmark and Approach for Referring Detection in Aerial Images
- Title(参考訳): RefAerial: 空中画像の参照検出のためのベンチマークとアプローチ
- Authors: Guyue Hu, Hao Song, Yuxing Tong, Duzhi Yuan, Dengdi Sun, Aihua Zheng, Chenglong Li, Jin Tang,
- Abstract要約: 本稿では,RefAerialと呼ばれる空中画像の検出を参照するための大規模な挑戦的データセットを提案する。
本手法は,(1)低照度かつ多照度,(2)多照度,(3)複雑できめ細かい参照記述,(4)多照度,広視野の4つの特徴により,従来の地表面参照検出データセットと区別する。
- 参考スコア(独自算出の注目度): 26.44128761701781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring detection refers to locate the target referred by natural languages, which has recently attracted growing research interests. However, existing datasets are limited to ground images with large object centered in relative small scenes. This paper introduces a large-scale challenging dataset for referring detection in aerial images, termed as RefAerial. It distinguishes from conventional ground referring detection datasets by 4 characteristics: (1) low but diverse object-to-scene ratios, (2) numerous targets and distractors, (3)complex and fine-grained referring descriptions, (4) diverse and broad scenes in the aerial view. We also develop a human-in-the-loop referring expansion and annotation engine (REA-Engine) for efficient semi-automated referring pair annotation. Besides, we observe that existing ground referring detection approaches exhibiting serious performance degradation on our aerial dataset since the intrinsic scale variety issue within or across aerial images. Therefore, we further propose a novel scale-comprehensive and sensitive (SCS) framework for referring detection in aerial images. It consists of a mixture-of-granularity (MoG) attention and a two-stage comprehensive-to-sensitive (CtS) decoding strategy. Specifically, the mixture-of-granularity attention is developed for scale-comprehensive target understanding. In addition, the two-stage comprehensive-to-sensitive decoding strategy is designed for coarse-to-fine referring target decoding. Eventually, the proposed SCS framework achieves remarkable performance on our aerial referring detection dataset and even promising performance boost on conventional ground referring detection datasets.
- Abstract(参考訳): 参照検出(Referring detection)とは、近年研究の関心が高まりつつある自然言語による対象の特定を指す。
しかし、既存のデータセットは、比較的小さなシーンを中心にした大きな物体を持つ地上画像に限られている。
本稿では,RefAerialと呼ばれる空中画像の検出を参照するための大規模な挑戦的データセットを提案する。
本手法は,(1)低照度かつ多照度,(2)多照度,(3)複雑できめ細かい参照記述,(4)多照度,広視野の4つの特徴により,従来の地表面参照検出データセットと区別する。
また,効率的な半自動参照ペアアノテーションのための,ループ内参照拡張およびアノテーションエンジン(REA-Engine)を開発した。
さらに,本研究は,空中画像内あるいは空中画像内における内在的スケールのばらつきから,既存の地中参照検出手法が航空データセットに深刻な性能劣化をもたらすことを観察した。
そこで本研究では,空中画像における検出を参照するための,新しいスケール包括型高感度(SCS)フレームワークを提案する。
混合粒度(MoG)の注意と2段階の包括感度(CtS)の復号戦略で構成されている。
具体的には、スケール・包括的対象理解のための混合粒度注意法を開発した。
さらに、粗大な参照対象デコードのために、2段階の包括的・感性的デコード戦略を設計する。
最終的に,提案したSCSフレームワークは,空中参照検出データセットに顕著な性能を達成し,従来の地上参照検出データセットにも有望な性能向上を実現した。
関連論文リスト
- MODA: The First Challenging Benchmark for Multispectral Object Detection in Aerial Images [26.48439423478357]
航空画像におけるマルチスペクトル物体検出のための最初の大規模データセット(MODA)を紹介する。
このデータセットは14,041のMSIと330,191のアノテーションで構成されている。
我々はまた、スペクトル情報と空間情報をオブジェクト認識キューに統合するフレームワークであるOSSDetを提案する。
論文 参考訳(メタデータ) (2025-12-10T10:07:06Z) - SAR Object Detection with Self-Supervised Pretraining and Curriculum-Aware Sampling [41.24071764578782]
衛星搭載合成開口レーダ画像における物体検出は、都市モニタリングや災害対応といったタスクにおいて大きな可能性を秘めている。
衛星搭載SAR画像における小さな物体の検出は、比較的低い空間分解能と固有のノイズのため、特に複雑な問題を引き起こす。
本稿では,SARオブジェクト検出モデルであるTransARを紹介する。
論文 参考訳(メタデータ) (2025-04-17T19:44:05Z) - AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [51.44608822712786]
ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。
AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。
5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-10T15:13:00Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [68.18620488664187]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、密度分布を持つ。
各種ラベル付き環境下での多目的対象物に対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - FlightScope: An Experimental Comparative Review of Aircraft Detection Algorithms in Satellite Imagery [2.9687381456164004]
本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。
この研究は、YOLOバージョン5と8、より高速なRCNN、CenterNet、RetinaNet、RTMDet、DETRを含む一連の方法論を含む。
YOLOv5は空中物体検出のための堅牢なソリューションとして登場し、平均的精度、リコール、ユニオンのスコアに対するインターセクションによってその重要性を裏付けている。
論文 参考訳(メタデータ) (2024-04-03T17:24:27Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - A Multi-purpose Real Haze Benchmark with Quantifiable Haze Levels and
Ground Truth [61.90504318229845]
本稿では,ハズフリー画像とその場でのハズ密度測定を併用した,最初の実画像ベンチマークデータセットを提案する。
このデータセットはコントロールされた環境で生成され、プロの煙発生装置がシーン全体を覆っている。
このデータセットのサブセットは、CVPR UG2 2022 チャレンジの Haze Track における Object Detection に使用されている。
論文 参考訳(メタデータ) (2022-06-13T19:14:06Z) - Dense Attention Fluid Network for Salient Object Detection in Optical
Remote Sensing Images [193.77450545067967]
光リモートセンシング画像(RSI)における有意物体検出のためのエンド・ツー・エンドDense Attention Fluid Network(DAFNet)を提案する。
GCA(Global Context-Aware Attention)モジュールは、長距離の意味的関係を適応的にキャプチャするために提案される。
我々は、2000枚の画像とピクセルワイドなサリエンシアノテーションを含むSODのための新しい、挑戦的な光学RSIデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-26T06:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。