論文の概要: Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net
- arxiv url: http://arxiv.org/abs/2108.07851v6
- Date: Mon, 21 Aug 2023 05:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:36:35.346668
- Title: Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net
- Title(参考訳): 変圧器を用いた非対称バイラテラルu-netによる突発的物体検出
- Authors: Yu Qiu, Yun Liu, Le Zhang, Jing Xu
- Abstract要約: 既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
- 参考スコア(独自算出の注目度): 19.21709807149165
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing salient object detection (SOD) methods mainly rely on U-shaped
convolution neural networks (CNNs) with skip connections to combine the global
contexts and local spatial details that are crucial for locating salient
objects and refining object details, respectively. Despite great successes, the
ability of CNNs in learning global contexts is limited. Recently, the vision
transformer has achieved revolutionary progress in computer vision owing to its
powerful modeling of global dependencies. However, directly applying the
transformer to SOD is suboptimal because the transformer lacks the ability to
learn local spatial representations. To this end, this paper explores the
combination of transformers and CNNs to learn both global and local
representations for SOD. We propose a transformer-based Asymmetric Bilateral
U-Net (ABiU-Net). The asymmetric bilateral encoder has a transformer path and a
lightweight CNN path, where the two paths communicate at each encoder stage to
learn complementary global contexts and local spatial details, respectively.
The asymmetric bilateral decoder also consists of two paths to process features
from the transformer and CNN encoder paths, with communication at each decoder
stage for decoding coarse salient object locations and fine-grained object
details, respectively. Such communication between the two encoder/decoder paths
enables AbiU-Net to learn complementary global and local representations,
taking advantage of the natural merits of transformers and CNNs, respectively.
Hence, ABiU-Net provides a new perspective for transformer-based SOD. Extensive
experiments demonstrate that ABiU-Net performs favorably against previous
state-of-the-art SOD methods. The code is available at
https://github.com/yuqiuyuqiu/ABiU-Net.
- Abstract(参考訳): 既存のsalient object detection(sod)メソッドは、主にu字型の畳み込みニューラルネットワーク(cnns)に依存しており、グローバルコンテキストと、salient objectの探索とオブジェクトの詳細の精細化に不可欠なローカルな空間的詳細を組み合わせたスキップ接続を備えている。
大きな成功にもかかわらず、グローバルコンテキストの学習におけるCNNの能力は限られている。
近年、ビジョントランスフォーマーは、グローバル依存の強力なモデリングのため、コンピュータビジョンの革命的な進歩を遂げている。
しかし、変換器をSODに直接適用することは、局所空間表現を学習する能力に欠けるため、最適ではない。
そこで本研究では,SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーとCNNの組み合わせについて検討する。
トランスベース非対称双方向u-net (abiu-net) を提案する。
非対称バイラテラルエンコーダはトランスパスと軽量cnnパスを有しており、2つのパスはそれぞれエンコーダステージで通信し、相補的な大域的文脈と局所的な空間的詳細を学習する。
非対称なバイラテラルデコーダはトランスフォーマとcnnエンコーダパスから特徴を処理するための2つのパスで構成されており、それぞれのデコーダステージでは粗いサルエントオブジェクトの位置と細粒度のオブジェクト詳細をデコードする。
このような2つのエンコーダ/デコーダパス間の通信により、AbiU-NetはトランスフォーマーとCNNの自然な利点を生かして、補完的なグローバルとローカルの表現を学ぶことができる。
したがって、ABiU-NetはトランスフォーマーベースのSODの新しい視点を提供する。
大規模な実験により、ABiU-Netは従来の最先端SOD法に対して好適に機能することが示された。
コードはhttps://github.com/yuqiuyuqiu/abiu-netで入手できる。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for
Remote Sensing Images Change Detection [12.727650696327878]
本稿では,変換器とCNNの利点を継承するために,エンドツーエンドの複合ネットワークSwinV2DNetを提案する。
これは、密に接続されたSwin V2バックボーンを通じて、変更関係の機能をキャプチャする。
CNNブランチを通じて、低レベルの事前変更と後変更の機能を提供する。
論文 参考訳(メタデータ) (2023-08-22T03:31:52Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。