論文の概要: Prototype-Based Low Altitude UAV Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.01550v1
- Date: Thu, 02 Apr 2026 02:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.19841
- Title: Prototype-Based Low Altitude UAV Semantic Segmentation
- Title(参考訳): プロトタイプに基づく低高度UAVセマンティックセグメンテーション
- Authors: Da Zhang, Gao Junyu, Zhao Zhiyuan,
- Abstract要約: 既存の変圧器を用いた分割法は、優れた性能を実現するが、高い計算オーバーヘッドを発生させる。
UAVアプリケーションに適した効率的なプロトタイプベースセグメンテーションフレームワークPBSegを提案する。
PBSegは、セグメンテーション品質を維持しながら計算複雑性を低減するために特徴冗長性を利用する。
- 参考スコア(独自算出の注目度): 0.772846963490401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation of low-altitude UAV imagery presents unique challenges due to extreme scale variations, complex object boundaries, and limited computational resources on edge devices. Existing transformer-based segmentation methods achieve remarkable performance but incur high computational overhead, while lightweight approaches struggle to capture fine-grained details in high-resolution aerial scenes. To address these limitations, we propose PBSeg, an efficient prototype-based segmentation framework tailored for UAV applications. PBSeg introduces a novel prototype-based cross-attention (PBCA) that exploits feature redundancy to reduce computational complexity while maintaining segmentation quality. The framework incorporates an efficient multi-scale feature extraction module that combines deformable convolutions (DConv) with context-aware modulation (CAM) to capture both local details and global semantics. Experiments on two challenging UAV datasets demonstrate the effectiveness of the proposed approach. PBSeg achieves 71.86\% mIoU on UAVid and 80.92\% mIoU on UDD6, establishing competitive performance while maintaining computational efficiency. Code is available at https://github.com/zhangda1018/PBSeg.
- Abstract(参考訳): 低高度UAV画像のセマンティックセグメンテーションは、極端なスケールのバリエーション、複雑なオブジェクト境界、エッジデバイス上の限られた計算資源による、ユニークな課題を示す。
既存のトランスを用いたセグメンテーション手法は、優れた性能を実現するが、高い計算オーバーヘッドを発生させる一方、軽量なアプローチでは、高解像度の空中シーンで細かな詳細を捉えるのに苦労する。
これらの制約に対処するために,UAVアプリケーションに適した効率的なプロトタイプベースセグメンテーションフレームワークPBSegを提案する。
PBSegは、セグメンテーション品質を維持しながら計算複雑性を低減するために特徴冗長性を利用する、新しいプロトタイプベースのクロスアテンション(PBCA)を導入した。
このフレームワークには、変形可能な畳み込み(DConv)とコンテキスト認識変調(CAM)を組み合わせて、局所的な詳細とグローバルなセマンティクスの両方をキャプチャする、効率的なマルチスケール機能抽出モジュールが組み込まれている。
2つの挑戦的なUAVデータセットの実験は、提案手法の有効性を実証している。
PBSegはUAVidで71.86\% mIoU、UDD6で80.92\% mIoUを達成した。
コードはhttps://github.com/zhangda1018/PBSegで入手できる。
関連論文リスト
- DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation [2.2015188658021003]
本稿では, DCAU-Netを提案する。
まず,2つの独立なソフトマックスアテンションマップの違いを計算するために,新しい微分クロスアテンション(DCA)を設計した。
第2に,Channel-Spatial Feature Fusion (CSFF) 戦略を導入し,特徴を適応的に再検討する。
論文 参考訳(メタデータ) (2026-03-10T11:37:10Z) - CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation [6.478456907626643]
CLIDD (Cross-Layer Independent Deformable Description) は、独立な特徴階層から直接サンプリングすることで、優れた特徴性を実現する手法である。
リアルタイム性能を確保するため,ハードウェア対応のカーネル融合戦略を実装した。
軽量アーキテクチャとトレーニングプロトコルを統合するスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2026-01-14T07:03:01Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。