論文の概要: Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding
- arxiv url: http://arxiv.org/abs/2410.14944v1
- Date: Sat, 19 Oct 2024 02:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:55.442455
- Title: Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding
- Title(参考訳): 複数モーダルシーン理解に向けた部分ホールリレーショナルフュージョン
- Authors: Yi Liu, Chengxin Li, Shoukun Xu, Jungong Han,
- Abstract要約: マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.96911650437978
- License:
- Abstract: Multi-modal fusion has played a vital role in multi-modal scene understanding. Most existing methods focus on cross-modal fusion involving two modalities, often overlooking more complex multi-modal fusion, which is essential for real-world applications like autonomous driving, where visible, depth, event, LiDAR, etc., are used. Besides, few attempts for multi-modal fusion, \emph{e.g.}, simple concatenation, cross-modal attention, and token selection, cannot well dig into the intrinsic shared and specific details of multiple modalities. To tackle the challenge, in this paper, we propose a Part-Whole Relational Fusion (PWRF) framework. For the first time, this framework treats multi-modal fusion as part-whole relational fusion. It routes multiple individual part-level modalities to a fused whole-level modality using the part-whole relational routing ability of Capsule Networks (CapsNets). Through this part-whole routing, our PWRF generates modal-shared and modal-specific semantics from the whole-level modal capsules and the routing coefficients, respectively. On top of that, modal-shared and modal-specific details can be employed to solve the issue of multi-modal scene understanding, including synthetic multi-modal segmentation and visible-depth-thermal salient object detection in this paper. Experiments on several datasets demonstrate the superiority of the proposed PWRF framework for multi-modal scene understanding. The source code has been released on https://github.com/liuyi1989/PWRF.
- Abstract(参考訳): マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの方法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
さらに、マルチモーダル融合(emph{e g }、単純連結、クロスモーダルアテンション、トークン選択)の試みは、複数のモーダルの固有の共有および特定の詳細を十分に掘り下げることができない。
本稿では,PWRF(Part-Whole Relational Fusion)フレームワークを提案する。
このフレームワークは初めて、マルチモーダル核融合を部分的リレーショナル核融合として扱う。
カプセルネットワーク(Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks, Capsule Networks)は、複数の部分レベルのモダリティを融合した全体モードにルーティングする。
この部分的なルーティングを通じて、PWRFは、各レベルのモダルカプセルとルーティング係数から、それぞれモダル共有およびモダル固有意味を生成します。
さらに, 合成マルチモーダルセグメンテーションや可視深度熱塩物検出など, 多モーダルシーン理解の課題を解決するために, モーダルシェード, モーダル特有の詳細情報を用いることができる。
複数のデータセットの実験は、マルチモーダルシーン理解のための提案されたPWRFフレームワークの優位性を実証している。
ソースコードはhttps://github.com/liuyi1989/PWRFで公開されている。
関連論文リスト
- StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Multi-modal Crowd Counting via Modal Emulation [41.959740205234446]
モーダルエミュレーションに基づくマルチモーダルクラウドカウントフレームワークを提案する。
フレームワークは、Emphmulti-modal推論パスとEmphcross-modalエミュレーションパスの2つの重要なコンポーネントで構成されている。
RGB-ThermalとRGB-Depthの計数データセットの実験は、従来の手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-28T13:14:57Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。