論文の概要: TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer
Embedding Network
- arxiv url: http://arxiv.org/abs/2108.03990v1
- Date: Mon, 9 Aug 2021 12:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:18:38.791754
- Title: TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer
Embedding Network
- Title(参考訳): TriTransNet: Triplet Transformer Embedding Network を用いた RGB-D Salient Object Detection
- Authors: Zhengyi Liu, Yuan Wang, Zhengzheng Tu, Yun Xiao, Bin Tang
- Abstract要約: マルチレベル機能を強化するために,三重変圧器の組込みモジュールを提案する。
マルチレベル機能を強化するために、共有重みを持つ3つのトランスフォーマーエンコーダを使った最初のものである。
提案する三重変圧器埋込ネットワーク(TriTransNet)は,RGB-Dサリアンオブジェクト検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 18.910883028990998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection is the pixel-level dense prediction task which can
highlight the prominent object in the scene. Recently U-Net framework is widely
used, and continuous convolution and pooling operations generate multi-level
features which are complementary with each other. In view of the more
contribution of high-level features for the performance, we propose a triplet
transformer embedding module to enhance them by learning long-range
dependencies across layers. It is the first to use three transformer encoders
with shared weights to enhance multi-level features. By further designing scale
adjustment module to process the input, devising three-stream decoder to
process the output and attaching depth features to color features for the
multi-modal fusion, the proposed triplet transformer embedding network
(TriTransNet) achieves the state-of-the-art performance in RGB-D salient object
detection, and pushes the performance to a new level. Experimental results
demonstrate the effectiveness of the proposed modules and the competition of
TriTransNet.
- Abstract(参考訳): salient object detectionはピクセルレベルの密集した予測タスクであり、シーン内の顕著なオブジェクトをハイライトすることができる。
近年、U-Netフレームワークが広く使われ、連続的な畳み込みとプール操作が相互に補完する多層機能を生成する。
性能向上のための高レベルな特徴の寄与を考慮し,層間の長距離依存関係を学習してそれらを強化する3重変換器埋め込みモジュールを提案する。
マルチレベル機能を強化するために、共有重みを持つ3つのトランスフォーマーエンコーダを使った最初のものである。
さらに、入力を処理するスケール調整モジュールを設計、出力を処理する3つのストリームデコーダを考案し、マルチモーダル融合のカラー特徴に奥行き特徴を付加することにより、提案するトリプレットトランスフォーマー埋め込みネットワーク(tritransnet)は、rgb-dサルエントオブジェクト検出における最先端の性能を達成し、性能を新たなレベルに押し上げる。
実験の結果,提案モジュールの有効性とTriTransNetの競合が示された。
関連論文リスト
- CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - GroupTransNet: Group Transformer Network for RGB-D Salient Object
Detection [5.876499671899904]
本稿では,RGB-D有向物体検出のためのグループトランスフォーマーネットワーク(GroupTransNet)を提案する。
GroupTransNetは、クロスレイヤ機能の長距離依存関係を学ぶのが得意です。
実験により、GroupTransNetは比較モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-03-21T08:00:16Z) - DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection [44.94166578314837]
我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-12T12:59:12Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。