論文の概要: MPI: Multi-receptive and Parallel Integration for Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2108.03618v1
- Date: Sun, 8 Aug 2021 12:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:27:57.844923
- Title: MPI: Multi-receptive and Parallel Integration for Salient Object
Detection
- Title(参考訳): MPI:有能な物体検出のためのマルチレセプティブ・並列統合
- Authors: Han Sun, Jun Cen, Ningzhong Liu, Dong Liang, Huiyu Zhou
- Abstract要約: 深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。
本稿では,MPIと呼ばれる新しい手法を提案する。
提案手法は,異なる評価基準下での最先端手法よりも優れる。
- 参考スコア(独自算出の注目度): 17.32228882721628
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The semantic representation of deep features is essential for image context
understanding, and effective fusion of features with different semantic
representations can significantly improve the model's performance on salient
object detection. In this paper, a novel method called MPI is proposed for
salient object detection. Firstly, a multi-receptive enhancement module (MRE)
is designed to effectively expand the receptive fields of features from
different layers and generate features with different receptive fields. MRE can
enhance the semantic representation and improve the model's perception of the
image context, which enables the model to locate the salient object accurately.
Secondly, in order to reduce the reuse of redundant information in the complex
top-down fusion method and weaken the differences between semantic features, a
relatively simple but effective parallel fusion strategy (PFS) is proposed. It
allows multi-scale features to better interact with each other, thus improving
the overall performance of the model. Experimental results on multiple datasets
demonstrate that the proposed method outperforms state-of-the-art methods under
different evaluation metrics.
- Abstract(参考訳): 深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠であり、異なるセマンティック表現を持つ特徴の効果的な融合は、有能なオブジェクト検出におけるモデルの性能を著しく向上させる。
本稿では,salient object detectionのためのmpiと呼ばれる新しい手法を提案する。
まず、MRE(Multi-receptive enhancement Module)は、異なる層から特徴の受容領域を効果的に拡張し、異なる受容領域で特徴を生成するように設計されている。
MREは意味表現を強化し、画像コンテキストに対するモデルの認識を改善し、モデルが正常なオブジェクトを正確に特定できるようにする。
次に, 複雑なトップダウン融合法における冗長情報の再利用を削減し, 意味的特徴の違いを弱めるため, 比較的単純かつ効果的な並列融合戦略(pfs)を提案する。
これによって、マルチスケールな機能が相互によりよいインタラクションが可能になり、モデル全体のパフォーマンスが向上する。
複数のデータセットにおける実験結果から,提案手法は評価基準の異なる最先端手法よりも優れていることが示された。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文 参考訳(メタデータ) (2021-06-07T20:02:39Z) - Towards Accurate Camouflaged Object Detection with Mixture Convolution and Interactive Fusion [45.45231015502287]
本稿では,大規模な受容場と効果的な特徴融合を統合されたフレームワークに統合する,新しい深層学習型COD手法を提案する。
提案手法は,大規模な受容場からのリッチなコンテキスト情報を集約する,効果的な融合戦略により,カモフラージュされた物体を検出する。
論文 参考訳(メタデータ) (2021-01-14T16:06:08Z) - Centralized Information Interaction for Salient Object Detection [68.8587064889475]
U字型構造は、多スケールの機能を効率的に組み合わせるサリエント物体検出に長けている。
本稿では,これらの接続を集中化することにより,相互に相互に情報交換を行うことができることを示す。
本手法は, ボトムアップ経路とトップダウン経路の接続を置換することにより, 既存のU字型サルエント物体検出手法と協調することができる。
論文 参考訳(メタデータ) (2020-12-21T12:42:06Z) - Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。
実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-07T08:16:32Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。