論文の概要: ACFNet: Adaptively-Cooperative Fusion Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2109.04627v1
- Date: Fri, 10 Sep 2021 02:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:29:28.909113
- Title: ACFNet: Adaptively-Cooperative Fusion Network for RGB-D Salient Object
Detection
- Title(参考訳): ACFNet: RGB-D Salient Object Detectionのための適応協調型核融合ネットワーク
- Authors: Jinchao Zhu
- Abstract要約: 本稿では適応的協調型核融合ネットワーク(ACFNet)を提案する。
異なるオブジェクトに対して、異なるタイプの畳み込みによって生成された特徴は、セグメンテーション最適化のためのゲート機構によって強化または抑制される。
RGB-D SODデータセット上で行った十分な実験は、提案するネットワークが18の最先端アルゴリズムに対して好適に動作することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasonable employment of RGB and depth data show great significance in
promoting the development of computer vision tasks and robot-environment
interaction. However, there are different advantages and disadvantages in the
early and late fusion of the two types of data. Besides, due to the diversity
of object information, using a single type of data in a specific scenario tends
to result in semantic misleading. Based on the above considerations, we propose
an adaptively-cooperative fusion network (ACFNet) with ResinRes structure for
salient object detection. This structure is designed to flexibly utilize the
advantages of feature fusion in early and late stages. Secondly, an
adaptively-cooperative semantic guidance (ACG) scheme is designed to suppress
inaccurate features in the guidance phase. Further, we proposed a type-based
attention module (TAM) to optimize the network and enhance the multi-scale
perception of different objects. For different objects, the features generated
by different types of convolution are enhanced or suppressed by the gated
mechanism for segmentation optimization. ACG and TAM optimize the transfer of
feature streams according to their data attributes and convolution attributes,
respectively. Sufficient experiments conducted on RGB-D SOD datasets illustrate
that the proposed network performs favorably against 18 state-of-the-art
algorithms.
- Abstract(参考訳): RGBと深度データの合理的な利用は、コンピュータビジョンタスクとロボット環境相互作用の開発を促進する上で非常に重要である。
しかしながら、この2つのタイプのデータの早期および後期の融合には、異なる利点とデメリットがある。
さらに、オブジェクト情報の多様性のため、特定のシナリオで単一のタイプのデータを使用すると、セマンティックな誤解を招く傾向がある。
そこで本研究では, レジンレス構造を有する適応協調型核融合ネットワーク (acfnet) を提案する。
この構造は、初期および後期に特徴融合の利点を柔軟に活用するよう設計されている。
第2に,acg(adaptively-cooperative semantic guidance)スキームは,誘導フェーズにおける不正確な特徴を抑制するように設計されている。
さらに,タイプベースアテンションモジュール(TAM)を提案し,ネットワークを最適化し,異なるオブジェクトのマルチスケール認識を強化する。
異なるオブジェクトに対して、異なるタイプの畳み込みによって生成された特徴は、セグメンテーション最適化のためのゲート機構によって強化または抑制される。
ACGとTAMは、それぞれデータ属性と畳み込み属性に従って、機能ストリームの転送を最適化する。
RGB-D SODデータセット上で行った十分な実験は、提案するネットワークが18の最先端アルゴリズムに対して良好に動作することを示す。
関連論文リスト
- AdaRC: Mitigating Graph Structure Shifts during Test-Time [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。
AdaRCは,グラフの構造シフトに効果的かつ効率的な適応を意図した,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T15:15:40Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Perception-and-Regulation Network for Salient Object Detection [8.026227647732792]
本稿では,特徴間の相互依存性を明示的にモデル化し,特徴融合プロセスを適応的に制御する新しいグローバルアテンションユニットを提案する。
知覚部は、分類網内の完全に接続された層の構造を用いて、物体のサイズと形状を学習する。
さらに、ネットワークのグローバルな認識能力向上のために、模倣眼観察モジュール(IEO)が使用される。
論文 参考訳(メタデータ) (2021-07-27T02:38:40Z) - Deep feature selection-and-fusion for RGB-D semantic segmentation [8.831857715361624]
本研究は,fsfnet (unified and efficient feature selection and-fusion network) を提案する。
FSFNetは、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残留融合モジュールを含む。
最新の手法と比較すると,提案モデルが2つの公開データセットで競合性能を発揮できることを実験的に評価した。
論文 参考訳(メタデータ) (2021-05-10T04:02:32Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。