論文の概要: AerialFormer: Multi-resolution Transformer for Aerial Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.06842v2
- Date: Sun, 1 Oct 2023 17:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:13:30.796446
- Title: AerialFormer: Multi-resolution Transformer for Aerial Image Segmentation
- Title(参考訳): AerialFormer:Aerial Image Segmentationのためのマルチレゾリューショントランス
- Authors: Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian de Luis, Roy McCann,
Haitao Liao, Chase Rainwater, Meredith Adkins, Jackson Cothren, Ngan Le
- Abstract要約: AerialFormerは,契約経路におけるトランスフォーマーと,拡張経路における軽量なMD-CNN(Multi-Dilated Conal Neural Networks)を一体化する。
我々のAerialFormerは階層構造として設計されており、Transformerはマルチスケール機能を出力し、MD-CNNはマルチスケールから情報を集約する。
AerialFormerをiSAID、LoveDA、Potsdamの3つの一般的なデータセットでベンチマークしました。
- 参考スコア(独自算出の注目度): 7.415370401064414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial Image Segmentation is a top-down perspective semantic segmentation and
has several challenging characteristics such as strong imbalance in the
foreground-background distribution, complex background, intra-class
heterogeneity, inter-class homogeneity, and tiny objects. To handle these
problems, we inherit the advantages of Transformers and propose AerialFormer,
which unifies Transformers at the contracting path with lightweight
Multi-Dilated Convolutional Neural Networks (MD-CNNs) at the expanding path.
Our AerialFormer is designed as a hierarchical structure, in which Transformer
encoder outputs multi-scale features and MD-CNNs decoder aggregates information
from the multi-scales. Thus, it takes both local and global contexts into
consideration to render powerful representations and high-resolution
segmentation. We have benchmarked AerialFormer on three common datasets
including iSAID, LoveDA, and Potsdam. Comprehensive experiments and extensive
ablation studies show that our proposed AerialFormer outperforms previous
state-of-the-art methods with remarkable performance. Our source code will be
publicly available upon acceptance.
- Abstract(参考訳): Aerial Image Segmentationは、トップダウンの視点セマンティックセマンティックセグメンテーションであり、フォアグラウンド-バックグラウンド分布の強い不均衡、複雑な背景、クラス内不均一性、クラス間均一性、小さなオブジェクトなど、いくつかの困難な特徴を持っている。
これらの問題に対処するために、Transformerの利点を継承し、拡張経路における軽量なMD-CNN(Multi-Dilated Convolutional Neural Networks)を用いてTransformerをコントラクトパスで統一するAerialFormerを提案する。
トランスフォーマはマルチスケールな特徴を出力し、md-cnnsデコーダはマルチスケールから情報を集約する階層構造として設計されている。
したがって、ローカルとグローバルの両方のコンテキストを考慮に入れ、強力な表現と高解像度のセグメンテーションを描画する。
AerialFormerをiSAID、LoveDA、Potsdamの3つの一般的なデータセットでベンチマークしました。
包括的実験と広範囲なアブレーション実験により,提案したAerialFormerは従来の最先端手法よりも優れた性能を示した。
ソースコードは承認次第、公開される予定だ。
関連論文リスト
- Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification [42.15709954199397]
本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
論文 参考訳(メタデータ) (2023-11-17T04:06:20Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。