Fugu-MT 論文翻訳(概要): TFusion: Transformer based N-to-One Multimodal Fusion Block

論文の概要: TFusion: Transformer based N-to-One Multimodal Fusion Block

arxiv url: http://arxiv.org/abs/2208.12776v1
Date: Fri, 26 Aug 2022 16:42:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-29 12:32:15.390733
Title: TFusion: Transformer based N-to-One Multimodal Fusion Block
Title（参考訳）: TFusion: Transformer ベースの N-to-One Multimodal Fusion Block
Authors: Zecheng Liu and Jia Wei and Rui Li
Abstract要約: 本稿では,TFusion と呼ばれる変圧器を用いた核融合ブロックを提案する。使用可能なモダリティを、合成やゼロパディングの欠如なしに融合することを学ぶ。本研究では、TFusionを異なるバックボーンネットワークに適用し、マルチモーダルな人間の活動認識と脳腫瘍のセグメンテーションを行う。
参考スコア（独自算出の注目度）: 4.43142018105102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People perceive the world with different senses, such as sight, hearing, smell, and touch. Processing and fusing information from multiple modalities enables Artificial Intelligence to understand the world around us more easily. However, when there are missing modalities, the number of available modalities is different in diverse situations, which leads to an N-to-One fusion problem. To solve this problem, we propose a transformer based fusion block called TFusion. Different from preset formulations or convolution based methods, the proposed block automatically learns to fuse available modalities without synthesizing or zero-padding missing ones. Specifically, the feature representations extracted from upstream processing model are projected as tokens and fed into transformer layers to generate latent multimodal correlations. Then, to reduce the dependence on particular modalities, a modal attention mechanism is introduced to build a shared representation, which can be applied by the downstream decision model. The proposed TFusion block can be easily integrated into existing multimodal analysis networks. In this work, we apply TFusion to different backbone networks for multimodal human activity recognition and brain tumor segmentation tasks. Extensive experimental results show that the TFusion block achieves better performance than the competing fusion strategies.
Abstract（参考訳）: 人々は、視覚、聴覚、嗅覚、触覚など、異なる感覚で世界を知覚する。複数のモダリティから情報を処理し、融合することで、人工知能は私たちの周りの世界をより簡単に理解できるようになる。しかし、モダリティが欠けている場合、利用可能なモダリティの数は様々な状況で異なるため、n対1の融合問題に繋がる。そこで本稿では,tfusion という変圧器を用いた核融合ブロックを提案する。プリセットの定式化や畳み込みに基づく方法とは異なり、提案するブロックは自動的に、合成やゼロパディングの欠如なく利用可能なモダリティを融合することを学習する。具体的には、上流処理モデルから抽出された特徴表現をトークンとして投影してトランスフォーマー層に供給し、潜在マルチモーダル相関を生成する。そして、特定のモダリティへの依存を減らすために、下流決定モデルで適用可能な共有表現を構築するためのモーダルアテンション機構を導入する。提案するtfusionブロックは,既存のマルチモーダル解析ネットワークに容易に統合できる。本研究では,マルチモーダルなヒト活動認識と脳腫瘍分節タスクのために,異なるバックボーンネットワークにtfusionを適用する。実験の結果,TFusionブロックは競合する融合戦略よりも優れた性能を示すことがわかった。

関連論文リスト

DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition [5.765485747592163]
マルチモーダル感情認識のための解答表現と知識融合(DRKF)手法を提案する。 DRKFは、最適化表現学習(ORL)モジュールと知識融合(KF)モジュールの2つの主要なモジュールで構成されている。実験の結果, DRKFはIEMOCAP, MELD, M3ED上でのSOTA(State-of-the-art)性能を実現することがわかった。
論文参考訳（メタデータ） (2025-08-03T08:05:57Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文参考訳（メタデータ） (2024-12-19T15:53:21Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文参考訳（メタデータ） (2024-03-15T12:44:35Z)
A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文参考訳（メタデータ） (2023-12-22T03:25:15Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文参考訳（メタデータ） (2022-12-01T18:59:55Z)
Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。クロスアテンションモデルと自己アテンションモデルを実装し,比較する。 7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文参考訳（メタデータ） (2022-02-18T15:44:14Z)
LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。 3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文参考訳（メタデータ） (2021-12-03T03:43:18Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。