論文の概要: HRTransNet: HRFormer-Driven Two-Modality Salient Object Detection
- arxiv url: http://arxiv.org/abs/2301.03036v1
- Date: Sun, 8 Jan 2023 13:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:58:50.825037
- Title: HRTransNet: HRFormer-Driven Two-Modality Salient Object Detection
- Title(参考訳): hrtransnet:hrformer駆動の2モードサルエント物体検出
- Authors: Bin Tang, Zhengyi Liu, Yacheng Tan, and Qian He
- Abstract要約: 高分解能変換器(HRFormer)は高分解能表現を維持し、大域的受容場を共有することができる。
入力と出力が同じ解像度を持つ正当性物体検出(SOD)に対して友好的である。
HRTransNetと呼ばれる提案モデルは,まず補足モダリティの特徴抽出のための補助ストリームを導入する。
そして、各多分解能分岐の初めに、特徴を一次モダリティに注入する。
異なる解像度の出力特徴はすべて、機能内および機能間インタラクティブトランスによって集約される。
- 参考スコア(独自算出の注目度): 9.919382667245387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The High-Resolution Transformer (HRFormer) can maintain high-resolution
representation and share global receptive fields. It is friendly towards
salient object detection (SOD) in which the input and output have the same
resolution. However, two critical problems need to be solved for two-modality
SOD. One problem is two-modality fusion. The other problem is the HRFormer
output's fusion. To address the first problem, a supplementary modality is
injected into the primary modality by using global optimization and an
attention mechanism to select and purify the modality at the input level. To
solve the second problem, a dual-direction short connection fusion module is
used to optimize the output features of HRFormer, thereby enhancing the
detailed representation of objects at the output level. The proposed model,
named HRTransNet, first introduces an auxiliary stream for feature extraction
of supplementary modality. Then, features are injected into the primary
modality at the beginning of each multi-resolution branch. Next, HRFormer is
applied to achieve forwarding propagation. Finally, all the output features
with different resolutions are aggregated by intra-feature and inter-feature
interactive transformers. Application of the proposed model results in
impressive improvement for driving two-modality SOD tasks, e.g., RGB-D, RGB-T,
and light field SOD.https://github.com/liuzywen/HRTransNet
- Abstract(参考訳): 高分解能変換器(HRFormer)は高分解能表現を維持し、大域的受容場を共有する。
入力と出力が同じ解像度を持つ正当性物体検出(SOD)に対して友好的である。
しかし、2モードSODでは2つの重要な問題を解く必要がある。
一つの問題は二モード融合である。
もう一つの問題はHRFormer出力の融合である。
第1の問題を解決するために、大域的最適化と注意機構を用いて予備的モダリティを一次モダリティに注入し、入力レベルでモダリティを選択し、浄化する。
2つ目の問題を解決するため、HRFormerの出力特性を最適化するために二重方向短接続融合モジュールを用いて、出力レベルでのオブジェクトの詳細な表現を強化する。
HRTransNetと呼ばれる提案モデルは,まず補足モダリティの特徴抽出のための補助ストリームを導入する。
そして、各多分解能分岐の初めに、特徴を一次モダリティに注入する。
次に、HRFormerを適用して転送伝搬を実現する。
最後に、異なる解像度の出力特徴はすべて、機能内および機能間インタラクティブトランスによって集約される。
提案モデルの適用により、RGB-D、RGB-T、光フィールドSODなどの2モードSODタスクの駆動が大幅に改善される。
関連論文リスト
- Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection [107.96418568008644]
そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
論文 参考訳(メタデータ) (2020-03-19T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。