Fugu-MT 論文翻訳(概要): AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

論文の概要: AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

arxiv url: http://arxiv.org/abs/2504.07836v1
Date: Thu, 10 Apr 2025 15:13:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 16:42:30.352042
Title: AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations
Title（参考訳）: AerialVG: 位置関係の探索による航空視覚グラウンドの整合ベンチマーク
Authors: Junli Liu, Qizhi Chen, Zhigang Wang, Yiwen Tang, Yiting Zhang, Chi Yan, Dong Wang, Xuelong Li, Bin Zhao,
Abstract要約: ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。 AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。 5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
参考スコア（独自算出の注目度）: 42.75895237875992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual grounding (VG) aims to localize target objects in an image based on natural language descriptions. In this paper, we propose AerialVG, a new task focusing on visual grounding from aerial views. Compared to traditional VG, AerialVG poses new challenges, \emph{e.g.}, appearance-based grounding is insufficient to distinguish among multiple visually similar objects, and positional relations should be emphasized. Besides, existing VG models struggle when applied to aerial imagery, where high-resolution images cause significant difficulties. To address these challenges, we introduce the first AerialVG dataset, consisting of 5K real-world aerial images, 50K manually annotated descriptions, and 103K objects. Particularly, each annotation in AerialVG dataset contains multiple target objects annotated with relative spatial relations, requiring models to perform comprehensive spatial reasoning. Furthermore, we propose an innovative model especially for the AerialVG task, where a Hierarchical Cross-Attention is devised to focus on target regions, and a Relation-Aware Grounding module is designed to infer positional relations. Experimental results validate the effectiveness of our dataset and method, highlighting the importance of spatial reasoning in aerial visual grounding. The code and dataset will be released.
Abstract（参考訳）: ビジュアルグラウンドティング(VG)は、自然言語記述に基づく画像内の対象物をローカライズすることを目的としている。本稿では,空中からの視覚的接地に着目した新しい課題であるAerialVGを提案する。従来のVGと比較して、AerialVGは新たな課題であるemph{e g } を呈し、外見に基づく接地は複数の視覚的に類似した物体を区別するには不十分であり、位置関係を強調すべきである。さらに、既存のVGモデルは、高解像度画像が重大な困難を引き起こす空中画像に適用する際に苦労する。これらの課題に対処するために,5Kの現実世界の空中画像,50Kの注釈付き記述,103KのオブジェクトからなるAerialVGデータセットを導入した。特に、AerialVGデータセットの各アノテーションは、相対的な空間的関係を付加した複数の対象オブジェクトを含み、包括的な空間的推論を行うためにモデルを必要とする。さらに,特にAerialVGタスクにおいて,階層的クロスアテンションが対象領域にフォーカスするように考案され,位置関係を推測するリレーショナル・アウェア・グラウンド・モジュールが設計された革新的なモデルを提案する。提案手法の有効性を検証し,空間的推論の重要性を強調した。コードとデータセットがリリースされる。

関連論文リスト

Open-Vocabulary Object Detection in UAV Imagery: A Review and Future Perspectives [17.28550362736493]
近年、無人航空機(UAV)技術の進歩により、この分野は新たな高地へと押し上げられている。従来のUAV空中物体検出方法は、主に事前に定義されたカテゴリーを検出することに焦点を当てている。クロスモーダルテキストイメージアライメント(例えばCLIP)の出現は、この制限を克服し、オープン語彙オブジェクト検出(OVOD)を可能にした。本稿では,UAV空域におけるOVODの包括的調査について述べる。
論文参考訳（メタデータ） (2025-07-04T04:56:25Z)
A Deep Learning Framework with Geographic Information Adaptive Loss for Remote Sensing Images based UAV Self-Positioning [10.16507150219648]
GPSデニド環境におけるUAVの自己配置は重要な目標となっている。本稿では,地理的情報適応的損失を伴う深層学習フレームワークを提案する。その結果、UAVが正確な自己配置を実現するための方法の有効性が示された。
論文参考訳（メタデータ） (2025-02-22T09:36:34Z)
Style Alignment based Dynamic Observation Method for UAV-View Geo-localization [7.185123213523453]
UAVビューのジオローカライゼーションのためのスタイルアライメントに基づく動的観察法を提案する。具体的には、ドローンビュー画像の多様な視覚スタイルから衛星画像の統一的な視覚スタイルへ変換するスタイルアライメント戦略を導入する。動的観察モジュールは、人間の観察習慣を模倣して画像の空間分布を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-03T06:19:42Z)
SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-01T07:03:51Z)
GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。 GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文参考訳（メタデータ） (2024-06-04T02:59:36Z)
TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文参考訳（メタデータ） (2024-05-04T21:55:33Z)
EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。 EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文参考訳（メタデータ） (2023-12-19T15:11:32Z)
Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。 MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文参考訳（メタデータ） (2023-12-07T18:59:14Z)
Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。提案手法は平均精度(MAP)を約45.7%向上させる。この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文参考訳（メタデータ） (2023-11-21T19:49:13Z)
Progressive Domain Adaptation with Contrastive Learning for Object Detection in the Satellite Imagery [0.0]
最先端のオブジェクト検出手法は、小さくて密度の高いオブジェクトを特定するのにほとんど失敗している。本稿では,特徴抽出プロセスを改善する小型物体検出パイプラインを提案する。未確認データセットにおけるオブジェクト識別の劣化を緩和できることを示す。
論文参考訳（メタデータ） (2022-09-06T15:16:35Z)
Co-visual pattern augmented generative transformer learning for automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。 CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-17T07:29:02Z)
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。 SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-03-10T06:41:07Z)
Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文参考訳（メタデータ） (2022-01-23T07:18:55Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。