論文の概要: Dual-Perspective United Transformer for Object Segmentation in Optical Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2506.21866v1
- Date: Fri, 27 Jun 2025 02:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.063575
- Title: Dual-Perspective United Transformer for Object Segmentation in Optical Remote Sensing Images
- Title(参考訳): 光リモートセンシング画像におけるオブジェクトセグメンテーションのためのデュアルパースペクティブ・ユナイテッド変換器
- Authors: Yanguang Sun, Jiexi Yan, Jianjun Qian, Chunyan Xu, Jian Yang, Lei Luo,
- Abstract要約: 本稿では,長距離依存関係と空間的詳細を同時に統合するユニークな構造を持つDPU変換器を提案する。
特に,2つの視点から多種多様な情報を捉えるグローバル・ローカル・ミックス・アテンションを設計する。
本稿では,表現能力を高めるために,ゲート型線形フィードフォワードネットワークを提案する。
- 参考スコア(独自算出の注目度): 38.942152581251165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically segmenting objects from optical remote sensing images (ORSIs) is an important task. Most existing models are primarily based on either convolutional or Transformer features, each offering distinct advantages. Exploiting both advantages is valuable research, but it presents several challenges, including the heterogeneity between the two types of features, high complexity, and large parameters of the model. However, these issues are often overlooked in existing the ORSIs methods, causing sub-optimal segmentation. For that, we propose a novel Dual-Perspective United Transformer (DPU-Former) with a unique structure designed to simultaneously integrate long-range dependencies and spatial details. In particular, we design the global-local mixed attention, which captures diverse information through two perspectives and introduces a Fourier-space merging strategy to obviate deviations for efficient fusion. Furthermore, we present a gated linear feed-forward network to increase the expressive ability. Additionally, we construct a DPU-Former decoder to aggregate and strength features at different layers. Consequently, the DPU-Former model outperforms the state-of-the-art methods on multiple datasets. Code: https://github.com/CSYSI/DPU-Former.
- Abstract(参考訳): 光リモートセンシング画像(ORSI)からオブジェクトを自動的に分割することは重要な課題である。
既存のモデルのほとんどは、主に畳み込み機能またはトランスフォーマー機能に基づいており、それぞれに明確な利点がある。
両方の利点を爆発させることは価値ある研究であるが、2つのタイプの特徴の異質性、高い複雑さ、モデルの大きなパラメータなど、いくつかの課題がある。
しかしながら、これらの問題は既存のORSIsメソッドでは見過ごされ、サブ最適セグメンテーションを引き起こしている。
そこで本稿では,長距離依存関係と空間的詳細を同時に統合するユニークな構造を持つDual-Perspective United Transformer(DPU-Former)を提案する。
特に,2つの視点から多彩な情報を捉えるグローバル・ローカル・ミックス・アテンションを設計し,効率的な融合のための偏差を抑えるために,フーリエ空間の融合戦略を導入する。
さらに,表現能力を高めるために,ゲート型線形フィードフォワードネットワークを提案する。
さらに,DPU-Formerデコーダを構築し,異なる層における特徴を集約し,強化する。
その結果、DPU-Formerモデルは、複数のデータセット上で最先端のメソッドよりも優れている。
コード:https://github.com/CSYSI/DPU-Former。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
本稿では,Cross Feature Pyramid Transformer Decoder (CFPFormer)を提案する。
私たちの仕事は、長距離の依存関係をキャプチャし、効果的にアップサンプルのフィーチャーマップを作成できます。
ResNet50のバックボーンにより,92.02%のDice Scoreを実現し,本手法の有効性を強調した。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - DSIC: Dynamic Sample-Individualized Connector for Multi-Scale Object
Detection [33.61001547745264]
マルチスケールオブジェクト検出のための動的サンプル独立接続器(DSIC)を提案する。
ISGは、機能統合の入力としてバックボーンから多レベル特徴を適応的に抽出する。
CSGはマルチレベル機能に基づいて情報伝達経路を自動的に活性化する。
論文 参考訳(メタデータ) (2020-11-16T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。