論文の概要: SFusion: Self-attention based N-to-One Multimodal Fusion Block
- arxiv url: http://arxiv.org/abs/2208.12776v2
- Date: Tue, 4 Jul 2023 14:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 00:16:49.452642
- Title: SFusion: Self-attention based N-to-One Multimodal Fusion Block
- Title(参考訳): SFusion: 自己注意に基づくN対1マルチモーダル核融合ブロック
- Authors: Zecheng Liu and Jia Wei and Rui Li and Jianlong Zhou
- Abstract要約: 本稿では,SFusionと呼ばれる自己注意型核融合ブロックを提案する。
使用可能なモダリティを、合成やゼロパディングの欠如なしに融合することを学ぶ。
本研究では,SFusionを異なるバックボーンネットワークに適用し,ヒトの活動認識と脳腫瘍のセグメンテーションを行う。
- 参考スコア(独自算出の注目度): 6.059397373352718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People perceive the world with different senses, such as sight, hearing,
smell, and touch. Processing and fusing information from multiple modalities
enables Artificial Intelligence to understand the world around us more easily.
However, when there are missing modalities, the number of available modalities
is different in diverse situations, which leads to an N-to-One fusion problem.
To solve this problem, we propose a self-attention based fusion block called
SFusion. Different from preset formulations or convolution based methods, the
proposed block automatically learns to fuse available modalities without
synthesizing or zero-padding missing ones. Specifically, the feature
representations extracted from upstream processing model are projected as
tokens and fed into self-attention module to generate latent multimodal
correlations. Then, a modal attention mechanism is introduced to build a shared
representation, which can be applied by the downstream decision model. The
proposed SFusion can be easily integrated into existing multimodal analysis
networks. In this work, we apply SFusion to different backbone networks for
human activity recognition and brain tumor segmentation tasks. Extensive
experimental results show that the SFusion block achieves better performance
than the competing fusion strategies. Our code is available at
https://github.com/scut-cszcl/SFusion.
- Abstract(参考訳): 人々は、視覚、聴覚、嗅覚、触覚など、異なる感覚で世界を知覚する。
複数のモダリティから情報を処理し、融合することで、人工知能は私たちの周りの世界をより簡単に理解できるようになる。
しかし、モダリティが欠けている場合、利用可能なモダリティの数は様々な状況で異なるため、n対1の融合問題に繋がる。
そこで本研究では,SFusionと呼ばれる自己注意型核融合ブロックを提案する。
プリセットの定式化や畳み込みに基づく方法とは異なり、提案するブロックは自動的に、合成やゼロパディングの欠如なく利用可能なモダリティを融合することを学習する。
具体的には、上流処理モデルから抽出された特徴表現をトークンとして投影し、セルフアテンションモジュールに供給して潜在マルチモーダル相関を生成する。
次に、下流決定モデルで適用可能な共有表現を構築するために、モーダル注意機構を導入する。
提案したSFusionは,既存のマルチモーダル解析ネットワークに容易に統合できる。
本研究では,SFusionを異なるバックボーンネットワークに適用し,ヒトの活動認識と脳腫瘍のセグメンテーションを行う。
実験の結果,SFusionブロックは競合する融合戦略よりも優れた性能を示すことがわかった。
私たちのコードはhttps://github.com/scut-cszcl/sfusionで利用可能です。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。