論文の概要: Salient Object Detection From Arbitrary Modalities
- arxiv url: http://arxiv.org/abs/2405.03352v1
- Date: Mon, 6 May 2024 11:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:06:06.115204
- Title: Salient Object Detection From Arbitrary Modalities
- Title(参考訳): 任意モードからの有意物体検出
- Authors: Nianchang Huang, Yang Yang, Ruida Xi, Qiang Zhang, Jungong Han, Jin Huang,
- Abstract要約: 我々は、任意モードSOD(AM SOD)と呼ばれる新しいタイプのSODタスクを提案する。
モダリティ型とモダリティ数は任意または動的に変化する。
AM SOD法は,ロバストなサルエント物体検出のための入力モードの種類や数の変化に効果的に対処できる。
- 参考スコア(独自算出の注目度): 54.36876185535064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toward desirable saliency prediction, the types and numbers of inputs for a salient object detection (SOD) algorithm may dynamically change in many real-life applications. However, existing SOD algorithms are mainly designed or trained for one particular type of inputs, failing to be generalized to other types of inputs. Consequentially, more types of SOD algorithms need to be prepared in advance for handling different types of inputs, raising huge hardware and research costs. Differently, in this paper, we propose a new type of SOD task, termed Arbitrary Modality SOD (AM SOD). The most prominent characteristics of AM SOD are that the modality types and modality numbers will be arbitrary or dynamically changed. The former means that the inputs to the AM SOD algorithm may be arbitrary modalities such as RGB, depths, or even any combination of them. While, the latter indicates that the inputs may have arbitrary modality numbers as the input type is changed, e.g. single-modality RGB image, dual-modality RGB-Depth (RGB-D) images or triple-modality RGB-Depth-Thermal (RGB-D-T) images. Accordingly, a preliminary solution to the above challenges, \i.e. a modality switch network (MSN), is proposed in this paper. In particular, a modality switch feature extractor (MSFE) is first designed to extract discriminative features from each modality effectively by introducing some modality indicators, which will generate some weights for modality switching. Subsequently, a dynamic fusion module (DFM) is proposed to adaptively fuse features from a variable number of modalities based on a novel Transformer structure. Finally, a new dataset, named AM-XD, is constructed to facilitate research on AM SOD. Extensive experiments demonstrate that our AM SOD method can effectively cope with changes in the type and number of input modalities for robust salient object detection.
- Abstract(参考訳): 所望の精度予測に向けて、SAD(Salient Object Detection)アルゴリズムの入力の種類と回数は、現実の多くのアプリケーションで動的に変化する可能性がある。
しかし、既存のSODアルゴリズムは、主に特定の入力タイプのために設計または訓練されており、他の入力タイプに一般化されない。
結果として、異なるタイプの入力を処理するために事前に多くのタイプのSODアルゴリズムを用意し、膨大なハードウェアと研究コストを増大させる必要がある。
そこで本稿では,新たなSODタスクであるArbitrary Modality SOD (AM SOD)を提案する。
AM SODの最も顕著な特徴は、モダリティ型とモダリティ数が任意または動的に変化することである。
前者は、AM SODアルゴリズムへの入力は、RGB、深さ、あるいはそれらの任意の組み合わせのような任意のモダリティであることを意味する。
後者は、入力タイプが変更されるにつれて、入力が任意のモダリティ数を持つ可能性があることを示しているが、例えば、単一のモダリティRGB画像、二重モダリティRGB-Depth(RGB-D)画像、または3重モダリティRGB-Depth-Thermal(RGB-D-T)画像である。
そこで,本稿では,モダリティスイッチネットワーク(MSN)という,上記の課題に対する予備的解決策を提案する。
特に,モーダリティスイッチ特徴抽出器(MSFE)は,まず,モーダリティスイッチの重みを生じるモーダリティ指標を導入することにより,各モーダリティから識別的特徴を効果的に抽出するように設計されている。
その後、動的融合モジュール (DFM) が提案され、新しいトランスフォーマー構造に基づく可変数のモジュラリティから特徴を適応的に融合する。
最後に、AM SODの研究を容易にするためにAM-XDという新しいデータセットを構築した。
AM SOD法は, 入力モードのタイプや数の変化に効果的に対処し, 頑健なサルエント物体検出に有効であることを示す。
関連論文リスト
- When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Unified-modal Salient Object Detection via Adaptive Prompt Learning [18.90181500147265]
単一モードSODタスクと多モードSODタスクの両方に対処するため,UniSODと呼ばれる統一フレームワークを提案する。
UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモーダルアウェアプロンプトを学習する。
提案手法は,RGB,RGB-D,RGB-T SODの14のベンチマークデータセットに対して,総合的な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:51:08Z) - AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models [103.41269503488546]
既存のカスタマイズ方法は、事前訓練された拡散確率モデルをユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。
本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。
本稿では,拡散モデルから新しいサンプルを初めて生成するAdjointDPMを提案する。
次に、随伴感度法を用いて、損失の勾配をモデルのパラメータにバックプロパゲートする。
論文 参考訳(メタデータ) (2023-07-20T09:06:21Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Switchable Deep Beamformer [41.10604715789614]
簡単なスイッチで1つのネットワークを用いて様々なタイプの出力を生成できるエムスイッチブル・ディープビームフォーマを提案する。
特に、スイッチはアダプティブインスタンス正規化(AdaIN)層を通じて実装され、AdaINコードを変更するだけで様々な出力を生成することができる。
論文 参考訳(メタデータ) (2020-08-31T14:31:03Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。