論文の概要: TFusion: Transformer based N-to-One Multimodal Fusion Block
- arxiv url: http://arxiv.org/abs/2208.12776v1
- Date: Fri, 26 Aug 2022 16:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:32:15.390733
- Title: TFusion: Transformer based N-to-One Multimodal Fusion Block
- Title(参考訳): TFusion: Transformer ベースの N-to-One Multimodal Fusion Block
- Authors: Zecheng Liu and Jia Wei and Rui Li
- Abstract要約: 本稿では,TFusion と呼ばれる変圧器を用いた核融合ブロックを提案する。
使用可能なモダリティを、合成やゼロパディングの欠如なしに融合することを学ぶ。
本研究では、TFusionを異なるバックボーンネットワークに適用し、マルチモーダルな人間の活動認識と脳腫瘍のセグメンテーションを行う。
- 参考スコア(独自算出の注目度): 4.43142018105102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People perceive the world with different senses, such as sight, hearing,
smell, and touch. Processing and fusing information from multiple modalities
enables Artificial Intelligence to understand the world around us more easily.
However, when there are missing modalities, the number of available modalities
is different in diverse situations, which leads to an N-to-One fusion problem.
To solve this problem, we propose a transformer based fusion block called
TFusion. Different from preset formulations or convolution based methods, the
proposed block automatically learns to fuse available modalities without
synthesizing or zero-padding missing ones. Specifically, the feature
representations extracted from upstream processing model are projected as
tokens and fed into transformer layers to generate latent multimodal
correlations. Then, to reduce the dependence on particular modalities, a modal
attention mechanism is introduced to build a shared representation, which can
be applied by the downstream decision model. The proposed TFusion block can be
easily integrated into existing multimodal analysis networks. In this work, we
apply TFusion to different backbone networks for multimodal human activity
recognition and brain tumor segmentation tasks. Extensive experimental results
show that the TFusion block achieves better performance than the competing
fusion strategies.
- Abstract(参考訳): 人々は、視覚、聴覚、嗅覚、触覚など、異なる感覚で世界を知覚する。
複数のモダリティから情報を処理し、融合することで、人工知能は私たちの周りの世界をより簡単に理解できるようになる。
しかし、モダリティが欠けている場合、利用可能なモダリティの数は様々な状況で異なるため、n対1の融合問題に繋がる。
そこで本稿では,tfusion という変圧器を用いた核融合ブロックを提案する。
プリセットの定式化や畳み込みに基づく方法とは異なり、提案するブロックは自動的に、合成やゼロパディングの欠如なく利用可能なモダリティを融合することを学習する。
具体的には、上流処理モデルから抽出された特徴表現をトークンとして投影してトランスフォーマー層に供給し、潜在マルチモーダル相関を生成する。
そして、特定のモダリティへの依存を減らすために、下流決定モデルで適用可能な共有表現を構築するためのモーダルアテンション機構を導入する。
提案するtfusionブロックは,既存のマルチモーダル解析ネットワークに容易に統合できる。
本研究では,マルチモーダルなヒト活動認識と脳腫瘍分節タスクのために,異なるバックボーンネットワークにtfusionを適用する。
実験の結果,TFusionブロックは競合する融合戦略よりも優れた性能を示すことがわかった。
関連論文リスト
- A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。