論文の概要: Visual Saliency Transformer
- arxiv url: http://arxiv.org/abs/2104.12099v1
- Date: Sun, 25 Apr 2021 08:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:38:19.798698
- Title: Visual Saliency Transformer
- Title(参考訳): Visual Saliency Transformer
- Authors: Nian Liu and Ni Zhang and Kaiyuan Wan and Junwei Han and Ling Shao
- Abstract要約: RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
- 参考スコア(独自算出の注目度): 127.33678448761599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, massive saliency detection methods have achieved promising results
by relying on CNN-based architectures. Alternatively, we rethink this task from
a convolution-free sequence-to-sequence perspective and predict saliency by
modeling long-range dependencies, which can not be achieved by convolution.
Specifically, we develop a novel unified model based on a pure transformer,
namely, Visual Saliency Transformer (VST), for both RGB and RGB-D salient
object detection (SOD). It takes image patches as inputs and leverages the
transformer to propagate global contexts among image patches. Apart from the
traditional transformer architecture used in Vision Transformer (ViT), we
leverage multi-level token fusion and propose a new token upsampling method
under the transformer framework to get high-resolution detection results. We
also develop a token-based multi-task decoder to simultaneously perform
saliency and boundary detection by introducing task-related tokens and a novel
patch-task-attention mechanism. Experimental results show that our model
outperforms existing state-of-the-art results on both RGB and RGB-D SOD
benchmark datasets. Most importantly, our whole framework not only provides a
new perspective for the SOD field but also shows a new paradigm for
transformer-based dense prediction models.
- Abstract(参考訳): 近年,CNNアーキテクチャをベースとした大規模サリエンシ検出手法が実現している。
あるいは、このタスクを畳み込みのないシーケンスツーシーケンスの観点から再考し、畳み込みでは達成できない長距離依存関係をモデル化することで、塩分を予測します。
具体的には,rgb と rgb-d salient object detection (sod) の両方に対して,純粋変圧器に基づく新しい統一モデルである visual saliency transformer (vst) を開発した。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
視覚トランスフォーマー(vit)で使用される従来のトランスフォーマーアーキテクチャとは別に,マルチレベルトークンフュージョンを利用して,トランスフォーマーフレームワーク下で新しいトークンアップサンプリング手法を提案し,高分解能検出結果を得る。
また,タスク関連トークンと新しいパッチ・タスク・アテンション機構を導入することで,サリエンシと境界検出を同時に行うトークンベースのマルチタスクデコーダを開発した。
実験結果から,RGBおよびRGB-D SODベンチマークのベンチマークデータにおいて,本モデルが既存の最先端結果より優れていることが示された。
最も重要なことは、我々のフレームワーク全体がSOD分野の新しい視点を提供するだけでなく、トランスフォーマーベースの高密度予測モデルのための新しいパラダイムも示しています。
関連論文リスト
- VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Transformer Transforms Salient Object Detection and Camouflaged Object
Detection [43.79585695098729]
本研究は, トランスネットワークを用いたサルエント物体検出(SOD)に関する研究である。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として、カモフラージュオブジェクトセグメンテーションのためのカモフラージオブジェクト検出(COD)タスクにも完全に監視されたモデルを適用します。
論文 参考訳(メタデータ) (2021-04-20T17:12:51Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。