論文の概要: Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2010.08218v1
- Date: Fri, 16 Oct 2020 08:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:14:10.512157
- Title: Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment
Analysis
- Title(参考訳): Deep-HOSeq:マルチモーダル感度解析のための高次系列融合
- Authors: Sunny Verma, Jiwei Wang, Zhefeng Ge, Rujia Shen, Fan Jin, Yang Wang,
Fang Chen, and Wei Liu
- Abstract要約: マルチモーダル感情分析は、感情分類に複数の異種モダリティを利用する。
最近の多モード融合方式はLSTMをカスタマイズしてモード内ダイナミクスを発見する。
モーダル内力学とモーダル間力学の両方を発見するための共通ネットワークを提案する。
- 参考スコア(独自算出の注目度): 12.386788662621338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sentiment analysis utilizes multiple heterogeneous modalities for
sentiment classification. The recent multimodal fusion schemes customize LSTMs
to discover intra-modal dynamics and design sophisticated attention mechanisms
to discover the inter-modal dynamics from multimodal sequences. Although
powerful, these schemes completely rely on attention mechanisms which is
problematic due to two major drawbacks 1) deceptive attention masks, and 2)
training dynamics. Nevertheless, strenuous efforts are required to optimize
hyperparameters of these consolidate architectures, in particular their
custom-designed LSTMs constrained by attention schemes. In this research, we
first propose a common network to discover both intra-modal and inter-modal
dynamics by utilizing basic LSTMs and tensor based convolution networks. We
then propose unique networks to encapsulate temporal-granularity among the
modalities which is essential while extracting information within asynchronous
sequences. We then integrate these two kinds of information via a fusion layer
and call our novel multimodal fusion scheme as Deep-HOSeq (Deep network with
higher order Common and Unique Sequence information). The proposed Deep-HOSeq
efficiently discovers all-important information from multimodal sequences and
the effectiveness of utilizing both types of information is empirically
demonstrated on CMU-MOSEI and CMU-MOSI benchmark datasets. The source code of
our proposed Deep-HOSeq is and available at
https://github.com/sverma88/Deep-HOSeq--ICDM-2020.
- Abstract(参考訳): マルチモーダル感情分析は、感情分類に複数の異種モダリティを利用する。
最近のマルチモーダル融合方式ではLSTMをカスタマイズしてモーダル内ダイナミクスを発見し、マルチモーダルシーケンスからモーダル間ダイナミクスを発見するための高度な注意機構を設計している。
しかし、これらのスキームは2つの大きな欠点のために問題となる注意機構に完全に依存している。
1)偽りの注意マスク、及び
2) 力学のトレーニング。
しかしながら、これらの統合アーキテクチャのハイパーパラメータ、特に注意体系に制約されたカスタム設計のLSTMの最適化には、厳しい努力が必要である。
本研究では,まず,基本lstmとテンソルに基づく畳み込みネットワークを用いて,モーダル内とモーダル間の両方のダイナミクスを探索する共通ネットワークを提案する。
次に,非同期シーケンス内の情報抽出に必須なモダリティ間の時間的粒度をカプセル化するユニークなネットワークを提案する。
次に、これらの2種類の情報を融合層を介して統合し、新しいマルチモーダルフュージョンスキームをDeep-HOSeq(高次共通シーケンス情報付きディープネットワーク)と呼ぶ。
提案したDeep-HOSeqはマルチモーダルシーケンスから全重要情報を効率よく発見し、CMU-MOSEIおよびCMU-MOSIベンチマークデータセット上で両タイプの情報を活用する効果を実証的に示す。
Deep-HOSeqのソースコードはhttps://github.com/sverma88/Deep-HOSeq--ICDM-2020で公開されている。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on
Resource-constrained Devices [0.4915744683251151]
本稿では,資源制約のあるデバイス上でハードウェアを意識した,単調なバックボーンとマルチモーダル融合ネットワークの協調最適化のためのフレームワークを提案する。
Harmonic-NASは10.9%の精度向上、1.91倍の遅延低減、2.14倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T21:37:26Z) - Asymmetric double-winged multi-view clustering network for exploring
Diverse and Consistent Information [28.300395619444796]
教師なしのシナリオでは、ディープコントラッシブ・マルチビュー・クラスタリング(DCMVC)がホットな研究スポットになりつつある。
我々はCodingNetと呼ばれる新しいマルチビュークラスタリングネットワークを提案し、多様な一貫した情報を同時に探索する。
フレームワークの有効性は、広く使用されている6つのベンチマークデータセットに関する広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2023-09-01T14:13:22Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Multi-Level Attentive Convoluntional Neural Network for Crowd Counting [12.61997540961144]
クラウドカウントのためのマルチレベル注意型畳み込みニューラルネットワーク(MLAttnCNN)を提案する。
我々は、複数の異なるスケールをプールに適用した高レベルの文脈情報を抽出する。
マルチレベルアテンションモジュールを用いて、異なる層の特徴を豊かにし、より効率的なマルチスケール機能融合を実現する。
論文 参考訳(メタデータ) (2021-05-24T17:29:00Z) - A novel multimodal fusion network based on a joint coding model for lane
line segmentation [22.89466867866239]
本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
論文 参考訳(メタデータ) (2021-03-20T06:47:58Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。