論文の概要: Unifying Global-Local Representations in Salient Object Detection with Transformer
- arxiv url: http://arxiv.org/abs/2108.02759v2
- Date: Sun, 17 Mar 2024 14:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 07:06:24.356974
- Title: Unifying Global-Local Representations in Salient Object Detection with Transformer
- Title(参考訳): トランスを用いた局所的物体検出におけるグローバルローカル表現の統一
- Authors: Sucheng Ren, Qiang Wen, Nanxuan Zhao, Guoqiang Han, Shengfeng He,
- Abstract要約: 我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
- 参考スコア(独自算出の注目度): 55.23033277636774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fully convolutional network (FCN) has dominated salient object detection for a long period. However, the locality of CNN requires the model deep enough to have a global receptive field and such a deep model always leads to the loss of local details. In this paper, we introduce a new attention-based encoder, vision transformer, into salient object detection to ensure the globalization of the representations from shallow to deep layers. With the global view in very shallow layers, the transformer encoder preserves more local representations to recover the spatial details in final saliency maps. Besides, as each layer can capture a global view of its previous layer, adjacent layers can implicitly maximize the representation differences and minimize the redundant features, making that every output feature of transformer layers contributes uniquely for final prediction. To decode features from the transformer, we propose a simple yet effective deeply-transformed decoder. The decoder densely decodes and upsamples the transformer features, generating the final saliency map with less noise injection. Experimental results demonstrate that our method significantly outperforms other FCN-based and transformer-based methods in five benchmarks by a large margin, with an average of 12.17% improvement in terms of Mean Absolute Error (MAE). Code will be available at https://github.com/OliverRensu/GLSTR.
- Abstract(参考訳): 完全畳み込みネットワーク (FCN) は, 長期間にわたって有能な物体検出を支配してきた。
しかし、CNNの局所性は、グローバルな受容場を持つのに十分な深さのモデルを必要とし、そのような深いモデルは、常に局所的な詳細が失われる。
本稿では,浅層から深層への表現のグローバル化を保証するために,新しい注目型エンコーダである視覚変換器をサルエントオブジェクト検出に導入する。
非常に浅い層のグローバルビューにより、トランスフォーマーエンコーダはより局所的な表現を保存し、最終的なサリエンシマップの空間的詳細を復元する。
さらに、各レイヤが前のレイヤのグローバルなビューをキャプチャできるため、隣接するレイヤは表現の差を暗黙的に最大化し、冗長な機能を最小化することができるため、トランスフォーマー層の出力機能は最終的な予測に一意に寄与する。
変換器から特徴量を復号するために, 単純かつ効果的に変換された復号器を提案する。
デコーダは変換器の特徴を密にデコードし、増幅し、ノイズ注入の少ない最終的なサリエンシマップを生成する。
実験により,本手法は,平均絶対誤差(MAE)において平均12.17%向上した5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも有意に優れていた。
コードはhttps://github.com/OliverRensu/GLSTR.comから入手できる。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching [8.503217766507584]
局所的文脈とグローバル構造の両方を捉えるために,新しい畳み込み変換器を提案する。
普遍的なFPNライクなフレームワークは、トランスフォーマーによるクロスデコーダと同様に、自己エンコーダ内のグローバル構造をキャプチャする。
新たなレグレッションベースのサブピクセルリファインメントモジュールは、微粒なウィンドウ特徴を微粒な位置ずれレグレッションに活用する。
論文 参考訳(メタデータ) (2023-11-29T12:06:19Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - CCTrans: Simplifying and Improving Crowd Counting with Transformer [7.597392692171026]
設計パイプラインをシンプルにするために,CCTransと呼ばれる簡単なアプローチを提案する。
具体的には、ピラミッド・ビジョン・トランスフォーマーのバックボーンを用いて、グローバルな観衆情報をキャプチャする。
提案手法は, 弱い, 完全に監督された群集カウントにおいて, いくつかのベンチマークにおいて, 最新の結果が得られる。
論文 参考訳(メタデータ) (2021-09-29T15:13:10Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。