Fugu-MT 論文翻訳(概要): MPI: Multi-receptive and Parallel Integration for Salient Object Detection

論文の概要: MPI: Multi-receptive and Parallel Integration for Salient Object Detection

arxiv url: http://arxiv.org/abs/2108.03618v1
Date: Sun, 8 Aug 2021 12:01:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-10 15:27:57.844923
Title: MPI: Multi-receptive and Parallel Integration for Salient Object Detection
Title（参考訳）: MPI:有能な物体検出のためのマルチレセプティブ・並列統合
Authors: Han Sun, Jun Cen, Ningzhong Liu, Dong Liang, Huiyu Zhou
Abstract要約: 深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。本稿では,MPIと呼ばれる新しい手法を提案する。提案手法は,異なる評価基準下での最先端手法よりも優れる。
参考スコア（独自算出の注目度）: 17.32228882721628
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The semantic representation of deep features is essential for image context understanding, and effective fusion of features with different semantic representations can significantly improve the model's performance on salient object detection. In this paper, a novel method called MPI is proposed for salient object detection. Firstly, a multi-receptive enhancement module (MRE) is designed to effectively expand the receptive fields of features from different layers and generate features with different receptive fields. MRE can enhance the semantic representation and improve the model's perception of the image context, which enables the model to locate the salient object accurately. Secondly, in order to reduce the reuse of redundant information in the complex top-down fusion method and weaken the differences between semantic features, a relatively simple but effective parallel fusion strategy (PFS) is proposed. It allows multi-scale features to better interact with each other, thus improving the overall performance of the model. Experimental results on multiple datasets demonstrate that the proposed method outperforms state-of-the-art methods under different evaluation metrics.
Abstract（参考訳）: 深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠であり、異なるセマンティック表現を持つ特徴の効果的な融合は、有能なオブジェクト検出におけるモデルの性能を著しく向上させる。本稿では,salient object detectionのためのmpiと呼ばれる新しい手法を提案する。まず、MRE(Multi-receptive enhancement Module)は、異なる層から特徴の受容領域を効果的に拡張し、異なる受容領域で特徴を生成するように設計されている。 MREは意味表現を強化し、画像コンテキストに対するモデルの認識を改善し、モデルが正常なオブジェクトを正確に特定できるようにする。次に, 複雑なトップダウン融合法における冗長情報の再利用を削減し, 意味的特徴の違いを弱めるため, 比較的単純かつ効果的な並列融合戦略(pfs)を提案する。これによって、マルチスケールな機能が相互によりよいインタラクションが可能になり、モデル全体のパフォーマンスが向上する。複数のデータセットにおける実験結果から,提案手法は評価基準の異なる最先端手法よりも優れていることが示された。

関連論文リスト

Semantic-Guided Natural Language and Visual Fusion for Cross-Modal Interaction Based on Tiny Object Detection [6.895355763564631]
本稿では, セマンティック誘導自然言語処理と高度な視覚認識バックボーンを組み合わせることで, オブジェクト検出のためのクロスモーダルインタラクションの最先端的手法を提案する。提案手法は,BERT言語モデルとCNNに基づくParallel Residual Bi-Fusion Feature Pyramid Networkを統合する。補題化と微調整技術を用いることで、テキスト入力から視覚的特徴にセマンティックキューを整列させ、小型で複雑な物体の検出精度を向上する。
論文参考訳（メタデータ） (2025-11-07T18:38:00Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD) メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2025-02-23T06:59:22Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
Self-Supervised Representation Learning with Meta Comprehensive Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文参考訳（メタデータ） (2024-03-03T15:53:48Z)
ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文参考訳（メタデータ） (2023-08-15T00:02:10Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
Progressive Multi-scale Fusion Network for RGB-D Salient Object Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文参考訳（メタデータ） (2021-06-07T20:02:39Z)
Towards Accurate Camouflaged Object Detection with Mixture Convolution and Interactive Fusion [45.45231015502287]
本稿では,大規模な受容場と効果的な特徴融合を統合されたフレームワークに統合する,新しい深層学習型COD手法を提案する。提案手法は,大規模な受容場からのリッチなコンテキスト情報を集約する,効果的な融合戦略により,カモフラージュされた物体を検出する。
論文参考訳（メタデータ） (2021-01-14T16:06:08Z)
Centralized Information Interaction for Salient Object Detection [68.8587064889475]
U字型構造は、多スケールの機能を効率的に組み合わせるサリエント物体検出に長けている。本稿では,これらの接続を集中化することにより,相互に相互に情報交換を行うことができることを示す。本手法は, ボトムアップ経路とトップダウン経路の接続を置換することにより, 既存のU字型サルエント物体検出手法と協調することができる。
論文参考訳（メタデータ） (2020-12-21T12:42:06Z)
Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2020-12-07T08:16:32Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。