論文の概要: Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection
- arxiv url: http://arxiv.org/abs/2108.06281v1
- Date: Fri, 13 Aug 2021 15:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:06:19.104416
- Title: Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection
- Title(参考訳): RGB-D Salient Object Detectionのためのモーダル適応型Gated Recoding Network
- Authors: Feng Dong, Jinchao Zhu, Xian Fang, Qiu Yu
- Abstract要約: 本稿では,2つのモードの情報の有効性を評価するために,GRNet(GRNet)を提案する。
知覚エンコーダを用いてマルチレベル単一モード特徴を抽出する。
無効な情報を抑制し、有効なモーダル特徴を復号ミキサとハイブリッド分岐復号器に転送するために、モーダル適応ゲートユニットを提案する。
- 参考スコア(独自算出の注目度): 2.9153096940947796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-modal salient object detection model based on RGB-D information has
better robustness in the real world. However, it remains nontrivial to better
adaptively balance effective multi-modal information in the feature fusion
phase. In this letter, we propose a novel gated recoding network (GRNet) to
evaluate the information validity of the two modes, and balance their
influence. Our framework is divided into three phases: perception phase,
recoding mixing phase and feature integration phase. First, A perception
encoder is adopted to extract multi-level single-modal features, which lays the
foundation for multi-modal semantic comparative analysis. Then, a
modal-adaptive gate unit (MGU) is proposed to suppress the invalid information
and transfer the effective modal features to the recoding mixer and the hybrid
branch decoder. The recoding mixer is responsible for recoding and mixing the
balanced multi-modal information. Finally, the hybrid branch decoder completes
the multi-level feature integration under the guidance of an optional edge
guidance stream (OEGS). Experiments and analysis on eight popular benchmarks
verify that our framework performs favorably against 9 state-of-art methods.
- Abstract(参考訳): RGB-D情報に基づくマルチモーダル・サリエント物体検出モデルは,実世界のロバスト性を向上する。
しかしながら、機能融合フェーズにおいて効果的なマルチモーダル情報を適応的にバランスさせることは、相変わらず自明である。
本稿では,2つのモードの情報妥当性を評価し,その影響のバランスをとるために,GRNet(GRNet)を提案する。
フレームワークは,認識フェーズ,復号混合フェーズ,特徴統合フェーズの3つのフェーズに分けられる。
まず、知覚エンコーダを用いて、マルチレベルな単一モーダル特徴を抽出し、マルチモーダルなセマンティック比較分析の基礎となる。
次に、無効な情報を抑制し、効果的なモード特徴を再コーディングミキサーとハイブリッド分岐デコーダに転送するモード適応ゲートユニット(mgu)を提案する。
リコーディングミキサーは、バランスの取れたマルチモーダル情報をリコーディングしてミキシングする。
最後に、ハイブリッドブランチデコーダは、オプションエッジガイダンスストリーム(OEGS)のガイダンスの下で、マルチレベル機能統合を完成させる。
8つの人気のあるベンチマークの実験と分析により、我々のフレームワークは9つの最先端メソッドに対して好適に機能することを確認した。
関連論文リスト
- FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。
RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。
また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - LC3Net: Ladder context correlation complementary network for salient
object detection [0.32116198597240836]
我々は,新しいラグコンテキスト相関補完ネットワーク (LC3Net) を提案する。
FCBはフィルタリング可能な畳み込みブロックであり、初期特徴の多様性に関する情報の自動収集を支援する。
DCMは、異なるレベルの特徴の密集を促進するための密接なクロスモジュールである。
BCDは双方向圧縮デコーダであり、マルチスケール機能の段階的縮小を支援する。
論文 参考訳(メタデータ) (2021-10-21T03:12:32Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。