論文の概要: TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection
- arxiv url: http://arxiv.org/abs/2112.02363v1
- Date: Sat, 4 Dec 2021 15:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:38:04.530777
- Title: TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection
- Title(参考訳): TransCMD: RGB-D Salient Object Detection のための Transformer を備えたクロスモードデコーダ
- Authors: Youwei Pang, Xiaoqi Zhao, Lihe Zhang, and Huchuan Lu
- Abstract要約: 本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
- 参考スコア(独自算出の注目度): 86.94578023985677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing RGB-D salient object detection methods utilize the
convolution operation and construct complex interweave fusion structures to
achieve cross-modal information integration. The inherent local connectivity of
convolution operation constrains the performance of the convolution-based
methods to a ceiling. In this work, we rethink this task from the perspective
of global information alignment and transformation. Specifically, the proposed
method (TransCMD) cascades several cross-modal integration units to construct a
top-down transformer-based information propagation path (TIPP). TransCMD treats
the multi-scale and multi-modal feature integration as a sequence-to-sequence
context propagation and update process built on the transformer. Besides,
considering the quadratic complexity w.r.t. the number of input tokens, we
design a patch-wise token re-embedding strategy (PTRE) with acceptable
computational cost. Experimental results on seven RGB-D SOD benchmark datasets
demonstrate that a simple two-stream encoder-decoder framework can surpass the
state-of-the-art purely CNN-based methods when it is equipped with the TIPP.
- Abstract(参考訳): 既存のRGB-Dの有向物体検出手法の多くは、畳み込み演算を利用し、複雑な層間融合構造を構築し、クロスモーダル情報の統合を実現する。
畳み込み操作の固有の局所接続は、畳み込みベースのメソッドのパフォーマンスを天井に制限する。
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には,Top-down transformer-based information propagation path (TIPP)を構築するために,複数のクロスモーダル統合ユニットをカスケードする。
TransCMDは、トランスフォーマー上に構築されたシーケンス・ツー・シーケンスのコンテキスト伝搬と更新プロセスとして、マルチスケールとマルチモーダルの機能統合を扱う。
さらに,入力トークン数の2次複雑性を考慮すると,適用可能な計算コストでパッチワイドトークン再埋め込み戦略(PTRE)を設計する。
7つのRGB-D SODベンチマークデータセットによる実験結果から、TIPPを搭載した場合、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
関連論文リスト
- Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。