論文の概要: PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation
- arxiv url: http://arxiv.org/abs/2406.19632v1
- Date: Fri, 28 Jun 2024 03:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:50:12.990709
- Title: PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation
- Title(参考訳): PPTFormer:UAVセグメンテーションのための擬似多点変換器
- Authors: Deyi Ji, Wenwei Jin, Hongtao Lu, Feng Zhao,
- Abstract要約: 我々は,新しいtextbfPseudo Multi-textbfPerspective textbfTranstextbfformerネットワークであるPTFormerを紹介する。
提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。
- 参考スコア(独自算出の注目度): 18.585299793391748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ascension of Unmanned Aerial Vehicles (UAVs) in various fields necessitates effective UAV image segmentation, which faces challenges due to the dynamic perspectives of UAV-captured images. Traditional segmentation algorithms falter as they cannot accurately mimic the complexity of UAV perspectives, and the cost of obtaining multi-perspective labeled datasets is prohibitive. To address these issues, we introduce the PPTFormer, a novel \textbf{P}seudo Multi-\textbf{P}erspective \textbf{T}rans\textbf{former} network that revolutionizes UAV image segmentation. Our approach circumvents the need for actual multi-perspective data by creating pseudo perspectives for enhanced multi-perspective learning. The PPTFormer network boasts Perspective Decomposition, novel Perspective Prototypes, and a specialized encoder and decoder that together achieve superior segmentation results through Pseudo Multi-Perspective Attention (PMP Attention) and fusion. Our experiments demonstrate that PPTFormer achieves state-of-the-art performance across five UAV segmentation datasets, confirming its capability to effectively simulate UAV flight perspectives and significantly advance segmentation precision. This work presents a pioneering leap in UAV scene understanding and sets a new benchmark for future developments in semantic segmentation.
- Abstract(参考訳): 様々な分野における無人航空機(UAV)の上昇は、UAVキャプチャ画像のダイナミックな視点による課題に直面する、効果的なUAV画像セグメンテーションを必要とする。
従来のセグメンテーションアルゴリズムは、UAVパースペクティブの複雑さを正確に模倣することができず、マルチパースペクティブなラベル付きデータセットを取得するコストは禁じられている。
これらの問題に対処するため,UAV画像セグメンテーションに革命をもたらす新しい超多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元
提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。
PPTFormerネットワークは、パースペクティブ分解、新しいパースペクティブプロトタイプ、およびPseudo Multi-Perspective Attention (PMP Attention)とFusionを通じて優れたセグメンテーション結果を得るための特別なエンコーダとデコーダを備えている。
実験により,PPTFormerは5つのUAVセグメンテーションデータセットの最先端性能を実現し,UAV飛行視点を効果的にシミュレートし,セグメンテーション精度を大幅に向上することを確認した。
この研究は、UAVシーン理解の先駆的な飛躍を示し、セマンティックセグメンテーションにおける将来の発展のための新しいベンチマークを設定する。
関連論文リスト
- Semantic Segmentation of Unmanned Aerial Vehicle Remote Sensing Images using SegFormer [0.14999444543328289]
本稿では,UAV画像のセマンティックセグメンテーションのためのセマンティックセグメンテーションフレームワークであるSegFormerの有効性と効率を評価する。
SegFormerの変種は、リアルタイム(B0)から高性能(B5)モデルまで、セマンティックセグメンテーションタスクに適したUAVidデータセットを使用して評価される。
実験結果は、モデルの性能をベンチマークデータセットで示し、多様なUAVシナリオにおけるオブジェクトとランドカバーの特徴を正確に記述する能力を強調した。
論文 参考訳(メタデータ) (2024-10-01T21:40:15Z) - UAV (Unmanned Aerial Vehicles): Diverse Applications of UAV Datasets in Segmentation, Classification, Detection, and Tracking [0.0]
無人航空機(UAV)は、さまざまな研究領域におけるデータの収集と分析のプロセスに革命をもたらした。
UAVデータセットは、衛星画像、ドローンが撮影した画像、ビデオなど、さまざまな種類のデータで構成されている。
これらのデータセットは、災害被害評価、航空監視、物体認識、追跡において重要な役割を果たす。
論文 参考訳(メタデータ) (2024-09-05T04:47:36Z) - UCDNet: Multi-UAV Collaborative 3D Object Detection Network by Reliable Feature Mapping [14.401624713578737]
マルチUAVコラボレーティブな3Dオブジェクト検出は複雑な環境を知覚し理解することができる。
カメラによる複数UAV協調3Dオブジェクト検出のパラダイムであるUCDNetを提案する。
本手法は, ベースラインに比べて4.7%, 10%mAPの増加を示した。
論文 参考訳(メタデータ) (2024-06-07T05:27:32Z) - View-Centric Multi-Object Tracking with Homographic Matching in Moving UAV [43.37259596065606]
無人航空機(UAV)のシナリオの移動における多目的追跡(MOT)の課題に対処する。
シーン背景の変化は、従来のフレーム間オブジェクトIOUアソシエーションメソッドを非効率にするだけでなく、オブジェクトに大きなビューシフトをもたらす。
このフレームワークは,MOTの課題を解決するために,シーン変更に固有のHomographyを初めて活用する。
論文 参考訳(メタデータ) (2024-03-16T06:48:33Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - CROVIA: Seeing Drone Scenes from Car Perspective via Cross-View
Adaptation [20.476683921252867]
道路車両の視界から得られた知識をUAVの視界に適応させる新しいCROVIA(Cross-View Adaptation)アプローチを提案する。
まず、ビュー間の幾何学的相関に基づいて、クロスビュー適応に対する新しい幾何学的制約を導入する。
第2に、画像空間からのクロスビュー相関を、ペアオンロードとUAVのビューデータを必要としないセグメンテーション空間に効果的に転送する。
論文 参考訳(メタデータ) (2023-04-14T15:20:40Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。