論文の概要: Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph
Pooling Fusion
- arxiv url: http://arxiv.org/abs/2011.13572v3
- Date: Fri, 23 Apr 2021 17:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:04:44.074115
- Title: Analyzing Unaligned Multimodal Sequence via Graph Convolution and Graph
Pooling Fusion
- Title(参考訳): グラフ畳み込みとグラフプーリング融合による不整合マルチモーダルシーケンスの解析
- Authors: Sijie Mai, Songlong Xing, Jiaxuan He, Ying Zeng, Haifeng Hu
- Abstract要約: 本稿では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。
グラフベースのモデルは、2つのベンチマークデータセット上で最先端のパフォーマンスに達する。
- 参考スコア(独自算出の注目度): 28.077474663199062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the task of multimodal sequence analysis which aims
to draw inferences from visual, language and acoustic sequences. A majority of
existing works generally focus on aligned fusion, mostly at word level, of the
three modalities to accomplish this task, which is impractical in real-world
scenarios. To overcome this issue, we seek to address the task of multimodal
sequence analysis on unaligned modality sequences which is still relatively
underexplored and also more challenging. Recurrent neural network (RNN) and its
variants are widely used in multimodal sequence analysis, but they are
susceptible to the issues of gradient vanishing/explosion and high time
complexity due to its recurrent nature. Therefore, we propose a novel model,
termed Multimodal Graph, to investigate the effectiveness of graph neural
networks (GNN) on modeling multimodal sequential data. The graph-based
structure enables parallel computation in time dimension and can learn longer
temporal dependency in long unaligned sequences. Specifically, our Multimodal
Graph is hierarchically structured to cater to two stages, i.e., intra- and
inter-modal dynamics learning. For the first stage, a graph convolutional
network is employed for each modality to learn intra-modal dynamics. In the
second stage, given that the multimodal sequences are unaligned, the commonly
considered word-level fusion does not pertain. To this end, we devise a graph
pooling fusion network to automatically learn the associations between various
nodes from different modalities. Additionally, we define multiple ways to
construct the adjacency matrix for sequential data. Experimental results
suggest that our graph-based model reaches state-of-the-art performance on two
benchmark datasets.
- Abstract(参考訳): 本稿では,視覚的,言語的,音響的シーケンスから推論を引き出すことを目的としたマルチモーダルシーケンス解析の課題について検討する。
既存の作品の大部分は、主に単語レベルで、このタスクを達成するための3つのモダリティ(現実のシナリオでは現実的ではない)の整合融合に焦点を当てている。
この問題を克服するため,本研究では,未整合モダリティ列に対するマルチモーダルシーケンス解析の課題について検討する。
リカレントニューラルネットワーク(RNN)とその変種は、マルチモーダルシーケンス解析で広く用いられているが、その再カレントな性質から勾配の消失/爆発や高速複雑化の問題の影響を受けやすい。
そこで本研究では,マルチモーダルシーケンシャルデータモデリングにおけるグラフニューラルネットワーク(GNN)の有効性を検討するために,マルチモーダルグラフと呼ばれる新しいモデルを提案する。
グラフベースの構造は、時間次元の並列計算を可能にし、長いアンアライメントシーケンスでより長い時間依存性を学習することができる。
具体的には,マルチモーダルグラフを階層的に2段階,すなわちモーダル内およびモーダル間動的学習に配置する。
第1段階では、モーダル内ダイナミクスを学ぶために各モダリティにグラフ畳み込みネットワークが用いられる。
第2段階では、マルチモーダル列が不整合であることを考えると、一般的には単語レベルの融合は関係しない。
そこで我々は,様々なノード間の関係を自動的に学習するグラフプール融合ネットワークを考案した。
さらに,シーケンシャルデータの隣接行列を構成する複数の方法を定義する。
実験結果から,2つのベンチマークデータセット上でのグラフベースモデルの性能は最先端であることが示唆された。
関連論文リスト
- Best of Both Worlds: Advantages of Hybrid Graph Sequence Models [20.564009321626198]
グラフ上での学習にグラフシーケンスモデルを採用するための統一フレームワークを提案する。
本稿では,グローバルおよびローカルなグラフタスクのレンズを用いて,トランスフォーマーと現代のリカレントモデルの表現能力を評価する。
GSM++は階層的親和性クラスタリング(HAC)アルゴリズムを用いてグラフを階層的シーケンスにトークン化する高速ハイブリッドモデルである。
論文 参考訳(メタデータ) (2024-11-23T23:24:42Z) - Discrete Graph Auto-Encoder [52.50288418639075]
離散グラフオートエンコーダ(DGAE)という新しいフレームワークを導入する。
まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換する。
2番目のステップでは、離散潜在表現の集合をソートし、特別に設計された自己回帰モデルを用いてそれらの分布を学習する。
論文 参考訳(メタデータ) (2023-06-13T12:40:39Z) - MTS2Graph: Interpretable Multivariate Time Series Classification with
Temporal Evolving Graphs [1.1756822700775666]
入力代表パターンを抽出・クラスタリングすることで時系列データを解釈する新しいフレームワークを提案する。
UCR/UEAアーカイブの8つのデータセットとHARとPAMデータセットで実験を行います。
論文 参考訳(メタデータ) (2023-06-06T16:24:27Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Learning the Evolutionary and Multi-scale Graph Structure for
Multivariate Time Series Forecasting [50.901984244738806]
時系列の進化的・マルチスケール相互作用をモデル化する方法を示す。
特に、まず、拡張畳み込みと協調して、スケール固有の相関を捉える階層グラフ構造を提供する。
最終的な予測を得るために上記のコンポーネントを統合するために、統合ニューラルネットワークが提供される。
論文 参考訳(メタデータ) (2022-06-28T08:11:12Z) - Graph Capsule Aggregation for Unaligned Multimodal Sequences [16.679793708015534]
本稿では,グラフベースのニューラルモデルとカプセルネットワークを用いた非整合マルチモーダルシーケンスをモデル化するために,Graph Capsule Aggregation(GraphCAGE)を導入する。
シーケンスデータをグラフに変換することにより、前述のRNNの問題を回避することができる。
さらに、Capsule Networkの集約機能とグラフベースの構造により、我々のモデルは解釈可能になり、長距離依存の問題をよりよく解決できる。
論文 参考訳(メタデータ) (2021-08-17T10:04:23Z) - Graph Gamma Process Generalized Linear Dynamical Systems [60.467040479276704]
実マルチ変数時系列をモデル化するために,グラフガンマ過程(GGP)線形力学系を導入する。
時間的パターン発見のために、モデルの下での潜在表現は、時系列を多変量部分列の同相集合に分解するために使用される。
非零次ノード数が有限であるランダムグラフを用いて、潜時状態遷移行列の空間パターンと次元の両方を定義する。
論文 参考訳(メタデータ) (2020-07-25T04:16:34Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Connecting the Dots: Multivariate Time Series Forecasting with Graph
Neural Networks [91.65637773358347]
多変量時系列データに特化して設計された汎用グラフニューラルネットワークフレームワークを提案する。
グラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。
提案手法は,4つのベンチマークデータセットのうち3つにおいて,最先端のベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2020-05-24T04:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。