論文の概要: Generalized Referring Expression Segmentation on Aerial Photos
- arxiv url: http://arxiv.org/abs/2512.07338v1
- Date: Mon, 08 Dec 2025 09:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.809046
- Title: Generalized Referring Expression Segmentation on Aerial Photos
- Title(参考訳): 航空写真における一般参照表現セグメンテーション
- Authors: Luís Marnoto, Alexandre Bernardino, Bruno Martins,
- Abstract要約: 本研究では,航空画像のための大規模参照表現セグメンテーションデータセットであるAerial-Dを提案する。
これは37,288のイメージと1,522,523の参照式で構成され、259,709の注釈付きターゲットをカバーし、個々のオブジェクトインスタンス、インスタンスのグループ、セマンティック領域にまたがる。
我々はRSRefSegアーキテクチャを採用し、Aerial-Dのモデルを事前の空中データセットとともに訓練し、現代画像と歴史的画像の両方のテキストから統一されたインスタンスとセマンティックセグメンテーションを得た。
- 参考スコア(独自算出の注目度): 47.944645462877894
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Referring expression segmentation is a fundamental task in computer vision that integrates natural language understanding with precise visual localization of target regions. Considering aerial imagery (e.g., modern aerial photos collected through drones, historical photos from aerial archives, high-resolution satellite imagery, etc.) presents unique challenges because spatial resolution varies widely across datasets, the use of color is not consistent, targets often shrink to only a few pixels, and scenes contain very high object densities and objects with partial occlusions. This work presents Aerial-D, a new large-scale referring expression segmentation dataset for aerial imagery, comprising 37,288 images with 1,522,523 referring expressions that cover 259,709 annotated targets, spanning across individual object instances, groups of instances, and semantic regions covering 21 distinct classes that range from vehicles and infrastructure to land coverage types. The dataset was constructed through a fully automatic pipeline that combines systematic rule-based expression generation with a Large Language Model (LLM) enhancement procedure that enriched both the linguistic variety and the focus on visual details within the referring expressions. Filters were additionally used to simulate historic imaging conditions for each scene. We adopted the RSRefSeg architecture, and trained models on Aerial-D together with prior aerial datasets, yielding unified instance and semantic segmentation from text for both modern and historical images. Results show that the combined training achieves competitive performance on contemporary benchmarks, while maintaining strong accuracy under monochrome, sepia, and grainy degradations that appear in archival aerial photography. The dataset, trained models, and complete software pipeline are publicly available at https://luispl77.github.io/aerial-d .
- Abstract(参考訳): 表現セグメンテーションの参照は、自然言語理解とターゲット領域の正確な視覚的ローカライゼーションを統合するコンピュータビジョンの基本的なタスクである。
航空画像(ドローンで収集された現代の空中写真、航空アーカイブからの歴史的写真、高解像度衛星画像など)を考えると、空間分解能はデータセットによって大きく異なるため、色の使用は一貫性がなく、ターゲットはわずか数ピクセルに縮小することが多く、シーンは部分的なオクルージョンを持つ非常に高いオブジェクト密度とオブジェクトを含んでいる。
Aerial-Dは、37,288の画像と1,522,523の画像からなり、259,709の注釈対象をカバーし、個々のオブジェクトインスタンス、インスタンスのグループ、セマンティック領域にまたがって、車両やインフラから土地被覆タイプまで、21の異なるクラスをカバーしている。
このデータセットは、体系的なルールベースの式生成とLarge Language Model(LLM)拡張手順を組み合わせた完全な自動パイプラインによって構築され、言語的多様性と参照式内の視覚的詳細に焦点を当てた。
フィルターは各シーンの歴史的撮像条件をシミュレートするためにも使用された。
我々はRSRefSegアーキテクチャを採用し、Aerial-Dのモデルを事前の空中データセットとともに訓練し、現代画像と歴史的画像の両方のテキストから統一されたインスタンスとセマンティックセグメンテーションを得た。
その結果, 複合訓練は, モノクローム, セピア, およびアーカイヴ空中写真に現れる粒状劣化に対して, 強い精度を維持しながら, コンテンポラリーベンチマーク上での競争性能を達成できることが示唆された。
データセット、トレーニングされたモデル、完全なソフトウェアパイプラインはhttps://luispl77.github.io/aerial-d.orgで公開されている。
関連論文リスト
- Cross-View Open-Vocabulary Object Detection in Aerial Imagery [48.851422992413184]
本研究では,地上画像からオープン語彙表現を適応させる新しい枠組みを提案し,空中画像における物体検出の課題を解決した。
コントラスト画像と画像のアライメントを導入し、空中と地上の埋め込みの類似性を高める。
我々のオープン語彙モデルは、DOTAv2上の+6.32 mAP、VisDrone上の+4.16 mAP、ゼロショット設定時のHRRSD上の+3.46 mAPの改善を実現する。
論文 参考訳(メタデータ) (2025-10-04T16:12:03Z) - DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [51.44608822712786]
ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。
AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。
5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-10T15:13:00Z) - A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis [17.83602731408318]
本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-13T18:52:14Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。