論文の概要: Neighborhood Attention Makes the Encoder of ResUNet Stronger for
Accurate Road Extraction
- arxiv url: http://arxiv.org/abs/2306.04947v1
- Date: Thu, 8 Jun 2023 05:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:13:24.795573
- Title: Neighborhood Attention Makes the Encoder of ResUNet Stronger for
Accurate Road Extraction
- Title(参考訳): resunetのエンコーダを高精度道路抽出に役立てる近所の注意
- Authors: Ali Jamali, Swalpa Kumar Roy, Jonathan Li, Pedram Ghamisi
- Abstract要約: textttResUNetFormerは、残留学習、HetConvs、UNet、ビジョントランスフォーマーの能力を利用するディープセマンティックセグメンテーションニューラルネットワークである。
開発されたtextttResUNetFormer は、マサチューセッツの公道データセット上で、最先端の深層学習に基づく道路抽出技術を用いて評価される。
- 参考スコア(独自算出の注目度): 32.25966551614462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the domain of remote sensing image interpretation, road extraction from
high-resolution aerial imagery has already been a hot research topic. Although
deep CNNs have presented excellent results for semantic segmentation, the
efficiency and capabilities of vision transformers are yet to be fully
researched. As such, for accurate road extraction, a deep semantic segmentation
neural network that utilizes the abilities of residual learning, HetConvs,
UNet, and vision transformers, which is called \texttt{ResUNetFormer}, is
proposed in this letter. The developed \texttt{ResUNetFormer} is evaluated on
various cutting-edge deep learning-based road extraction techniques on the
public Massachusetts road dataset. Statistical and visual results demonstrate
the superiority of the \texttt{ResUNetFormer} over the state-of-the-art CNNs
and vision transformers for segmentation. The code will be made available
publicly at \url{https://github.com/aj1365/ResUNetFormer}.
- Abstract(参考訳): リモートセンシング画像解釈の分野では、高解像度空中画像からの道路抽出はすでにホットな研究トピックとなっている。
深いCNNはセマンティックセグメンテーションに優れた結果を出しているが、視覚変換器の効率と能力はまだ十分に研究されていない。
そのため、正確な道路抽出のために、残留学習、hetconv、unet、視覚トランスフォーマの能力を利用する深い意味セグメンテーションニューラルネットワーク、すなわち \texttt{resunetformer} が提案されている。
開発された \texttt{resunetformer} は、マサチューセッツ州の公道データセット上で様々な最先端のディープラーニングに基づく道路抽出技術で評価される。
統計的および視覚的な結果は、セグメンテーションのための最先端の cnn と vision transformer よりも \texttt{resunetformer} の方が優れていることを示している。
コードは \url{https://github.com/aj1365/resunetformer} で公開される予定だ。
関連論文リスト
- STA-Unet: Rethink the semantic redundant for Medical Imaging Segmentation [1.9526521731584066]
スーパートークン注意(Super Token Attention, STA)機構は、スーパートークンをコンパクトな視覚表現として用い、ピクセル空間からトークン空間へのスーパーピクセルの概念を適応させる。
本研究では、豊富な情報を失うことなく冗長性を抑えるために、UNetアーキテクチャ(STA-UNet)にSTAモジュールを導入する。
4つの公開データセットの実験結果は、既存の最先端アーキテクチャよりもSTA-UNetの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-13T07:19:46Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Lane Detection with Versatile AtrousFormer and Local Semantic Guidance [92.83267435275802]
車線検出は自動運転における中核機能の一つである。
既存のほとんどの手法はCNNベースの手法に頼っている。
本稿では,この問題を解決するためにAtrous Transformer (AtrousFormer)を提案する。
論文 参考訳(メタデータ) (2022-03-08T13:25:35Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - Swin Transformer coupling CNNs Makes Strong Contextual Encoders for VHR
Image Road Extraction [11.308473487002782]
本稿では,ResNetとSwinTransformerを組み合わせた2分岐ネットワークブロックConSwinを提案する。
提案手法は,マサチューセッツおよびCHN6-CUGデータセットの精度,IOU,F1インジケータにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-01-10T06:05:12Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Segmentation of Roads in Satellite Images using specially modified U-Net
CNNs [0.0]
本研究の目的は,道路画像の特定を行う都市景観の衛星画像の分類器を構築することである。
従来のコンピュータビジョンアルゴリズムとは異なり、畳み込みニューラルネットワーク(CNN)はこのタスクに対して正確で信頼性の高い結果を提供する。
論文 参考訳(メタデータ) (2021-09-29T19:08:32Z) - Graph Attention Layer Evolves Semantic Segmentation for Road Pothole
Detection: A Benchmark and Algorithms [34.80667966432126]
既存の道路穴検出アプローチは、コンピュータビジョンベースまたは機械学習ベースに分類される。
後者のアプローチは一般的に、畳み込みニューラルネットワーク(CNN)をエンドツーエンドに使用した道路孔検出に対処する。
本稿では,既存の任意のCNNに容易に展開可能で,画像特徴表現をセマンティックセグメンテーションに最適化できる新しいCNN層を提案する。
論文 参考訳(メタデータ) (2021-09-06T19:44:50Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。