論文の概要: Dual-Perspective United Transformer for Object Segmentation in Optical Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2506.21866v1
- Date: Fri, 27 Jun 2025 02:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.063575
- Title: Dual-Perspective United Transformer for Object Segmentation in Optical Remote Sensing Images
- Title(参考訳): 光リモートセンシング画像におけるオブジェクトセグメンテーションのためのデュアルパースペクティブ・ユナイテッド変換器
- Authors: Yanguang Sun, Jiexi Yan, Jianjun Qian, Chunyan Xu, Jian Yang, Lei Luo,
- Abstract要約: 本稿では,長距離依存関係と空間的詳細を同時に統合するユニークな構造を持つDPU変換器を提案する。
特に,2つの視点から多種多様な情報を捉えるグローバル・ローカル・ミックス・アテンションを設計する。
本稿では,表現能力を高めるために,ゲート型線形フィードフォワードネットワークを提案する。
- 参考スコア(独自算出の注目度): 38.942152581251165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically segmenting objects from optical remote sensing images (ORSIs) is an important task. Most existing models are primarily based on either convolutional or Transformer features, each offering distinct advantages. Exploiting both advantages is valuable research, but it presents several challenges, including the heterogeneity between the two types of features, high complexity, and large parameters of the model. However, these issues are often overlooked in existing the ORSIs methods, causing sub-optimal segmentation. For that, we propose a novel Dual-Perspective United Transformer (DPU-Former) with a unique structure designed to simultaneously integrate long-range dependencies and spatial details. In particular, we design the global-local mixed attention, which captures diverse information through two perspectives and introduces a Fourier-space merging strategy to obviate deviations for efficient fusion. Furthermore, we present a gated linear feed-forward network to increase the expressive ability. Additionally, we construct a DPU-Former decoder to aggregate and strength features at different layers. Consequently, the DPU-Former model outperforms the state-of-the-art methods on multiple datasets. Code: https://github.com/CSYSI/DPU-Former.
- Abstract(参考訳): 光リモートセンシング画像(ORSI)からオブジェクトを自動的に分割することは重要な課題である。
既存のモデルのほとんどは、主に畳み込み機能またはトランスフォーマー機能に基づいており、それぞれに明確な利点がある。
両方の利点を爆発させることは価値ある研究であるが、2つのタイプの特徴の異質性、高い複雑さ、モデルの大きなパラメータなど、いくつかの課題がある。
しかしながら、これらの問題は既存のORSIsメソッドでは見過ごされ、サブ最適セグメンテーションを引き起こしている。
そこで本稿では,長距離依存関係と空間的詳細を同時に統合するユニークな構造を持つDual-Perspective United Transformer(DPU-Former)を提案する。
特に,2つの視点から多彩な情報を捉えるグローバル・ローカル・ミックス・アテンションを設計し,効率的な融合のための偏差を抑えるために,フーリエ空間の融合戦略を導入する。
さらに,表現能力を高めるために,ゲート型線形フィードフォワードネットワークを提案する。
さらに,DPU-Formerデコーダを構築し,異なる層における特徴を集約し,強化する。
その結果、DPU-Formerモデルは、複数のデータセット上で最先端のメソッドよりも優れている。
コード:https://github.com/CSYSI/DPU-Former。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
本稿では,Cross Feature Pyramid Transformer Decoder (CFPFormer)を提案する。
私たちの仕事は、長距離の依存関係をキャプチャし、効果的にアップサンプルのフィーチャーマップを作成できます。
ResNet50のバックボーンにより,92.02%のDice Scoreを実現し,本手法の有効性を強調した。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - DSIC: Dynamic Sample-Individualized Connector for Multi-Scale Object
Detection [33.61001547745264]
マルチスケールオブジェクト検出のための動的サンプル独立接続器(DSIC)を提案する。
ISGは、機能統合の入力としてバックボーンから多レベル特徴を適応的に抽出する。
CSGはマルチレベル機能に基づいて情報伝達経路を自動的に活性化する。
論文 参考訳(メタデータ) (2020-11-16T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。