論文の概要: Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers
- arxiv url: http://arxiv.org/abs/2206.09731v2
- Date: Wed, 22 Jun 2022 06:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 11:59:43.107550
- Title: Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers
- Title(参考訳): 効率的なunetsとtransformerを用いた高分解能画像の意味的ラベリング
- Authors: Hasan AlMarzouqi and Lyes Saad Saoud
- Abstract要約: 畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
- 参考スコア(独自算出の注目度): 5.177947445379688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation necessitates approaches that learn high-level
characteristics while dealing with enormous amounts of data. Convolutional
neural networks (CNNs) can learn unique and adaptive features to achieve this
aim. However, due to the large size and high spatial resolution of remote
sensing images, these networks cannot analyze an entire scene efficiently.
Recently, deep transformers have proven their capability to record global
interactions between different objects in the image. In this paper, we propose
a new segmentation model that combines convolutional neural networks with
transformers, and show that this mixture of local and global feature extraction
techniques provides significant advantages in remote sensing segmentation. In
addition, the proposed model includes two fusion layers that are designed to
represent multi-modal inputs and output of the network efficiently. The input
fusion layer extracts feature maps summarizing the relationship between image
content and elevation maps (DSM). The output fusion layer uses a novel
multi-task segmentation strategy where class labels are identified using
class-specific feature extraction layers and loss functions. Finally, a
fast-marching method is used to convert all unidentified class labels to their
closest known neighbors. Our results demonstrate that the proposed methodology
improves segmentation accuracy compared to state-of-the-art techniques.
- Abstract(参考訳): セマンティックセグメンテーションは大量のデータを扱う際に高いレベルの特性を学ぶアプローチを必要とする。
畳み込みニューラルネットワーク(CNN)はこの目的を達成するためにユニークで適応的な特徴を学ぶことができる。
しかし、リモートセンシング画像のサイズが大きく空間解像度が高いため、これらのネットワークはシーン全体を効率的に分析することはできない。
近年、ディープ・トランスフォーマーは、画像内の異なるオブジェクト間のグローバルな相互作用を記録する能力を証明している。
本稿では,畳み込みニューラルネットワークと変圧器を組み合わせた新たなセグメンテーションモデルを提案する。
さらに,提案モデルには,マルチモーダル入力とネットワーク出力を効率的に表現する2つの融合層が含まれている。
入力融合層は、画像内容と標高マップ(DSM)の関係を要約した特徴写像を抽出する。
出力融合層は、クラス固有の特徴抽出層と損失関数を用いてクラスラベルを識別する、新しいマルチタスクセグメンテーション戦略を使用する。
最後に、すべての未知のクラスラベルを最も近い隣人に変換するために、高速マーチングメソッドが使用される。
提案手法は,最先端技術に比べてセグメント化精度が向上することを示す。
関連論文リスト
- TransResNet: Integrating the Strengths of ViTs and CNNs for High Resolution Medical Image Segmentation via Feature Grafting [6.987177704136503]
医用画像領域で高解像度画像が好ましいのは、基礎となる方法の診断能力を大幅に向上させるためである。
医用画像セグメンテーションのための既存のディープラーニング技術のほとんどは、空間次元が小さい入力画像に最適化されており、高解像度画像では不十分である。
我々はTransResNetという並列処理アーキテクチャを提案し、TransformerとCNNを並列的に組み合わせ、マルチ解像度画像から特徴を独立して抽出する。
論文 参考訳(メタデータ) (2024-10-01T18:22:34Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SENetV2: Aggregated dense layer for channelwise and global
representations [0.0]
我々は,Squeeze残余モジュール内に,多分岐密度層である新しい多層パーセプトロンを導入する。
この融合により、チャネルワイドパターンを捕捉し、グローバルな知識を持つネットワークの能力が向上する。
ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
論文 参考訳(メタデータ) (2023-11-17T14:10:57Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。