Fugu-MT 論文翻訳(概要): MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences

論文の概要: MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences

arxiv url: http://arxiv.org/abs/2010.11985v2
Date: Wed, 28 Apr 2021 18:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 04:54:26.964775
Title: MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences
Title（参考訳）: MTAG:非整列型マルチモーダル言語系列のためのモーダル時間注意グラフ
Authors: Jianing Yang, Yongxin Wang, Ruitao Yi, Yuying Zhu, Azaan Rehman, Amir Zadeh, Soujanya Poria, Louis-Philippe Morency
Abstract要約: MTAGは、マルチモーダルシーケンシャルデータを解析するための適切なフレームワークを提供する、解釈可能なグラフベースのニューラルモデルである。 MTAGは、グラフ内の重要な相互作用のみに焦点を合わせることで、マルチモーダル感情分析と感情認識ベンチマークにおける最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 46.146331814606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human communication is multimodal in nature; it is through multiple modalities such as language, voice, and facial expressions, that opinions and emotions are expressed. Data in this domain exhibits complex multi-relational and temporal interactions. Learning from this data is a fundamentally challenging research problem. In this paper, we propose Modal-Temporal Attention Graph (MTAG). MTAG is an interpretable graph-based neural model that provides a suitable framework for analyzing multimodal sequential data. We first introduce a procedure to convert unaligned multimodal sequence data into a graph with heterogeneous nodes and edges that captures the rich interactions across modalities and through time. Then, a novel graph fusion operation, called MTAG fusion, along with a dynamic pruning and read-out technique, is designed to efficiently process this modal-temporal graph and capture various interactions. By learning to focus only on the important interactions within the graph, MTAG achieves state-of-the-art performance on multimodal sentiment analysis and emotion recognition benchmarks, while utilizing significantly fewer model parameters.
Abstract（参考訳）: 人間のコミュニケーションは本質的に多様であり、言語、声、表情といった複数のモダリティを通して、意見や感情が表現される。この領域のデータは複雑な多重関係および時間的相互作用を示す。このデータから学ぶことは、基本的に難しい研究課題である。本稿では,MTAG(Modal-Temporal Attention Graph)を提案する。 MTAGは、マルチモーダルシーケンシャルデータを解析するための適切なフレームワークを提供する、解釈可能なグラフベースのニューラルモデルである。まず,不整合なマルチモーダルシーケンスデータを不均質なノードとエッジを持つグラフに変換し,モダリティや時間を通じてリッチなインタラクションをキャプチャする手法を提案する。そして、MTAG融合と呼ばれる新しいグラフ融合演算とダイナミックプルーニングおよびリードアウト手法は、このモーダル時間グラフを効率的に処理し、様々な相互作用を捉えるように設計されている。 MTAGは、グラフ内の重要な相互作用のみに焦点を合わせることで、マルチモーダル感情分析と感情認識ベンチマークにおける最先端のパフォーマンスを達成し、モデルパラメータを著しく少なくする。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文参考訳（メタデータ） (2024-01-06T06:26:49Z)
Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-27T13:22:55Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Multi-modal Multi-kernel Graph Learning for Autism Prediction and Biomarker Discovery [29.790200009136825]
本稿では,マルチモーダル統合の過程におけるモダリティ間の負の影響を相殺し,グラフから異種情報を抽出する手法を提案する。本手法は,Autism Brain Imaging Data Exchange (ABIDE) データセットを用いて評価し,最先端の手法よりも優れている。また,自閉症に関連する差別的脳領域を本モデルにより同定し,自閉症の病態研究の指針を提供する。
論文参考訳（メタデータ） (2023-03-03T07:09:17Z)
Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph Pooling Fusion [28.077474663199062]
本稿では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。グラフベースのモデルは、2つのベンチマークデータセット上で最先端のパフォーマンスに達する。
論文参考訳（メタデータ） (2020-11-27T06:12:14Z)
Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。 CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文参考訳（メタデータ） (2020-08-04T08:25:24Z)
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文参考訳（メタデータ） (2020-07-17T04:06:09Z)
Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks [91.65637773358347]
多変量時系列データに特化して設計された汎用グラフニューラルネットワークフレームワークを提案する。グラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。提案手法は,4つのベンチマークデータセットのうち3つにおいて,最先端のベースライン手法よりも優れている。
論文参考訳（メタデータ） (2020-05-24T04:02:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。