論文の概要: MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal
Language Sequences
- arxiv url: http://arxiv.org/abs/2010.11985v2
- Date: Wed, 28 Apr 2021 18:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:54:26.964775
- Title: MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal
Language Sequences
- Title(参考訳): MTAG:非整列型マルチモーダル言語系列のためのモーダル時間注意グラフ
- Authors: Jianing Yang, Yongxin Wang, Ruitao Yi, Yuying Zhu, Azaan Rehman, Amir
Zadeh, Soujanya Poria, Louis-Philippe Morency
- Abstract要約: MTAGは、マルチモーダルシーケンシャルデータを解析するための適切なフレームワークを提供する、解釈可能なグラフベースのニューラルモデルである。
MTAGは、グラフ内の重要な相互作用のみに焦点を合わせることで、マルチモーダル感情分析と感情認識ベンチマークにおける最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 46.146331814606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human communication is multimodal in nature; it is through multiple
modalities such as language, voice, and facial expressions, that opinions and
emotions are expressed. Data in this domain exhibits complex multi-relational
and temporal interactions. Learning from this data is a fundamentally
challenging research problem. In this paper, we propose Modal-Temporal
Attention Graph (MTAG). MTAG is an interpretable graph-based neural model that
provides a suitable framework for analyzing multimodal sequential data. We
first introduce a procedure to convert unaligned multimodal sequence data into
a graph with heterogeneous nodes and edges that captures the rich interactions
across modalities and through time. Then, a novel graph fusion operation,
called MTAG fusion, along with a dynamic pruning and read-out technique, is
designed to efficiently process this modal-temporal graph and capture various
interactions. By learning to focus only on the important interactions within
the graph, MTAG achieves state-of-the-art performance on multimodal sentiment
analysis and emotion recognition benchmarks, while utilizing significantly
fewer model parameters.
- Abstract(参考訳): 人間のコミュニケーションは本質的に多様であり、言語、声、表情といった複数のモダリティを通して、意見や感情が表現される。
この領域のデータは複雑な多重関係および時間的相互作用を示す。
このデータから学ぶことは、基本的に難しい研究課題である。
本稿では,MTAG(Modal-Temporal Attention Graph)を提案する。
MTAGは、マルチモーダルシーケンシャルデータを解析するための適切なフレームワークを提供する、解釈可能なグラフベースのニューラルモデルである。
まず,不整合なマルチモーダルシーケンスデータを不均質なノードとエッジを持つグラフに変換し,モダリティや時間を通じてリッチなインタラクションをキャプチャする手法を提案する。
そして、MTAG融合と呼ばれる新しいグラフ融合演算とダイナミックプルーニングおよびリードアウト手法は、このモーダル時間グラフを効率的に処理し、様々な相互作用を捉えるように設計されている。
MTAGは、グラフ内の重要な相互作用のみに焦点を合わせることで、マルチモーダル感情分析と感情認識ベンチマークにおける最先端のパフォーマンスを達成し、モデルパラメータを著しく少なくする。
関連論文リスト
- TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - MMOE: Mixture of Multimodal Interaction Experts [115.20477067767399]
MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [41.95245738953235]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - Multi-modal Multi-kernel Graph Learning for Autism Prediction and
Biomarker Discovery [29.790200009136825]
本稿では,マルチモーダル統合の過程におけるモダリティ間の負の影響を相殺し,グラフから異種情報を抽出する手法を提案する。
本手法は,Autism Brain Imaging Data Exchange (ABIDE) データセットを用いて評価し,最先端の手法よりも優れている。
また,自閉症に関連する差別的脳領域を本モデルにより同定し,自閉症の病態研究の指針を提供する。
論文 参考訳(メタデータ) (2023-03-03T07:09:17Z) - MMGA: Multimodal Learning with Graph Alignment [8.349066399479938]
本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。
MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。
われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
論文 参考訳(メタデータ) (2022-10-18T15:50:31Z) - Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph
Pooling Fusion [28.077474663199062]
本稿では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。
グラフベースのモデルは、2つのベンチマークデータセット上で最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2020-11-27T06:12:14Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Connecting the Dots: Multivariate Time Series Forecasting with Graph
Neural Networks [91.65637773358347]
多変量時系列データに特化して設計された汎用グラフニューラルネットワークフレームワークを提案する。
グラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。
提案手法は,4つのベンチマークデータセットのうち3つにおいて,最先端のベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2020-05-24T04:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。