論文の概要: Low Rank Fusion based Transformers for Multimodal Sequences
- arxiv url: http://arxiv.org/abs/2007.02038v1
- Date: Sat, 4 Jul 2020 08:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:29:29.871726
- Title: Low Rank Fusion based Transformers for Multimodal Sequences
- Title(参考訳): 低ランク核融合に基づくマルチモーダルシーケンス変換器
- Authors: Saurav Sahay, Eda Okur, Shachi H Kumar, Lama Nachman
- Abstract要約: CMU-MOSEI, CMU-MOSI, IEMOCAPデータセットを用いたマルチモーダル知覚と感情認識の2つの手法を提案する。
我々のモデルはより少ないパラメータを持ち、より速く訓練し、多くの大規模な核融合ベースのアーキテクチャと相容れない性能を発揮する。
- 参考スコア(独自算出の注目度): 9.507869508188266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our senses individually work in a coordinated fashion to express our
emotional intentions. In this work, we experiment with modeling
modality-specific sensory signals to attend to our latent multimodal emotional
intentions and vice versa expressed via low-rank multimodal fusion and
multimodal transformers. The low-rank factorization of multimodal fusion
amongst the modalities helps represent approximate multiplicative latent signal
interactions. Motivated by the work of~\cite{tsai2019MULT} and~\cite{Liu_2018},
we present our transformer-based cross-fusion architecture without any
over-parameterization of the model. The low-rank fusion helps represent the
latent signal interactions while the modality-specific attention helps focus on
relevant parts of the signal. We present two methods for the Multimodal
Sentiment and Emotion Recognition results on CMU-MOSEI, CMU-MOSI, and IEMOCAP
datasets and show that our models have lesser parameters, train faster and
perform comparably to many larger fusion-based architectures.
- Abstract(参考訳): 感覚は個別に協調して働き、感情的な意図を表現する。
本研究では,潜在するマルチモーダル感情の意図に対応するモダリティ特有の感覚信号のモデル化を試み,低位マルチモーダル融合とマルチモーダルトランスフォーマーを用いて表現する。
モダリティ間のマルチモーダル融合の低ランク分解は、近似的乗法潜在信号相互作用を表現するのに役立つ。
本稿では,モデルの過剰なパラメータ化を伴わずに,トランスフォーマーを用いたクロスフュージョン・アーキテクチャを提案する。
低位融合は潜在信号の相互作用を表現するのに役立ち、モダリティ特有の注意は信号の関連部分に焦点を合わせるのに役立つ。
本研究では,cmu-mosei,cmu-mosi,iemocapのデータセットにおけるマルチモーダル感情と感情認識の2つの方法を示し,本モデルがより少ないパラメータを持ち,より高速にトレーニングでき,多くの大きな融合ベースのアーキテクチャと相性が良いことを示す。
関連論文リスト
- AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T16:28:12Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。