論文の概要: AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2502.16680v1
- Date: Sun, 23 Feb 2025 18:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:12.849642
- Title: AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation
- Title(参考訳): エアロリフォーマ:UAVによるリフレクション画像分割のための空中リフレクション変換器
- Authors: Rui Li,
- Abstract要約: 本稿では,UAV参照画像セグメンテーション(UAV-RIS)のための新しいフレームワークを提案する。
AeroReformerは、効果的なクロスモーダル理解のためのVision-Language Cross-Attention Module (VLCAM)とローテーション対応のマルチスケール核融合デコーダを備えている。
新たに開発された2つのデータセットの実験は、既存の方法よりもAeroReformerの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 2.378838656737389
- License:
- Abstract: As a novel and challenging task, referring segmentation combines computer vision and natural language processing to localize and segment objects based on textual descriptions. While referring image segmentation (RIS) has been extensively studied in natural images, little attention has been given to aerial imagery, particularly from unmanned aerial vehicles (UAVs). The unique challenges of UAV imagery, including complex spatial scales, occlusions, and varying object orientations, render existing RIS approaches ineffective. A key limitation has been the lack of UAV-specific datasets, as manually annotating pixel-level masks and generating textual descriptions is labour-intensive and time-consuming. To address this gap, we design an automatic labelling pipeline that leverages pre-existing UAV segmentation datasets and Multimodal Large Language Models (MLLM) for generating textual descriptions. Furthermore, we propose Aerial Referring Transformer (AeroReformer), a novel framework for UAV referring image segmentation (UAV-RIS), featuring a Vision-Language Cross-Attention Module (VLCAM) for effective cross-modal understanding and a Rotation-Aware Multi-Scale Fusion (RAMSF) decoder to enhance segmentation accuracy in aerial scenes. Extensive experiments on two newly developed datasets demonstrate the superiority of AeroReformer over existing methods, establishing a new benchmark for UAV-RIS. The datasets and code will be publicly available at: https://github.com/lironui/AeroReformer.
- Abstract(参考訳): 新規かつ困難なタスクとして、セグメント化はコンピュータビジョンと自然言語処理を組み合わせて、テキスト記述に基づくオブジェクトのローカライズとセグメント化を行う。
イメージセグメンテーション(RIS)は、自然画像において広く研究されているが、特に無人航空機(UAV)の航空画像にはほとんど注目されていない。
複雑な空間スケール、オクルージョン、様々なオブジェクト指向を含むUAV画像のユニークな課題は、既存のRISアプローチを効果的にしない。
重要な制限は、UAV固有のデータセットの欠如であり、手動でピクセルレベルのマスクを注釈付けし、テキスト記述を生成するのは労働集約的で時間を要する。
このギャップを解決するために,既存のUAVセグメンテーションデータセットとMLLM(Multimodal Large Language Models)を利用してテキスト記述を生成する自動ラベリングパイプラインを設計する。
さらに,画像セグメンテーション(UAV-RIS)を参照するUAVのための新しいフレームワークであるAerial Referring Transformer (AeroReformer)を提案し,画像セグメンテーションを効果的に理解するためのVision-Language Cross-Attention Module (VLCAM)と,空中シーンにおけるセグメンテーション精度を高めるローテーション・アウェア・マルチスケールフュージョン(RAMSF)デコーダを提案する。
新たに開発された2つのデータセットに対する大規模な実験では、既存の手法よりもAeroReformerの方が優れていることが示され、UAV-RISの新しいベンチマークが確立された。
データセットとコードは、https://github.com/lironui/AeroReformer.comで公開される。
関連論文リスト
- UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery [14.599037804047724]
無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。
既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。
本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:11:14Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Semantic Segmentation of Unmanned Aerial Vehicle Remote Sensing Images using SegFormer [0.14999444543328289]
本稿では,UAV画像のセマンティックセグメンテーションのためのセマンティックセグメンテーションフレームワークであるSegFormerの有効性と効率を評価する。
SegFormerの変種は、リアルタイム(B0)から高性能(B5)モデルまで、セマンティックセグメンテーションタスクに適したUAVidデータセットを使用して評価される。
実験結果は、モデルの性能をベンチマークデータセットで示し、多様なUAVシナリオにおけるオブジェクトとランドカバーの特徴を正確に記述する能力を強調した。
論文 参考訳(メタデータ) (2024-10-01T21:40:15Z) - PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation [18.585299793391748]
我々は,新しいtextbfPseudo Multi-textbfPerspective textbfTranstextbfformerネットワークであるPTFormerを紹介する。
提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。
論文 参考訳(メタデータ) (2024-06-28T03:43:49Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - UAVStereo: A Multiple Resolution Dataset for Stereo Matching in UAV
Scenarios [0.6524460254566905]
本稿では,UAVStereoと呼ばれる多解像度UAVシナリオデータセットを構築し,34k以上のステレオ画像ペアが3つの典型的なシーンをカバーしている。
本稿では,UAVシナリオにおける課題に対処する際の限界を明らかにするとともに,従来型および最先端のディープラーニング手法の評価を行う。
論文 参考訳(メタデータ) (2023-02-20T16:45:27Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。