論文の概要: Multimodal Graph Transformer for Multimodal Question Answering
- arxiv url: http://arxiv.org/abs/2305.00581v1
- Date: Sun, 30 Apr 2023 21:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:27:50.086635
- Title: Multimodal Graph Transformer for Multimodal Question Answering
- Title(参考訳): マルチモーダル質問応答のためのマルチモーダルグラフ変換器
- Authors: Xuehai He, Xin Eric Wang
- Abstract要約: 本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
- 参考スコア(独自算出の注目度): 9.292566397511763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Transformer models in vision and language tasks, they
often learn knowledge from enormous data implicitly and cannot utilize
structured input data directly. On the other hand, structured learning
approaches such as graph neural networks (GNNs) that integrate prior
information can barely compete with Transformer models. In this work, we aim to
benefit from both worlds and propose a novel Multimodal Graph Transformer for
question answering tasks that requires performing reasoning across multiple
modalities. We introduce a graph-involved plug-and-play quasi-attention
mechanism to incorporate multimodal graph information, acquired from text and
visual data, to the vanilla self-attention as effective prior. In particular,
we construct the text graph, dense region graph, and semantic graph to generate
adjacency matrices, and then compose them with input vision and language
features to perform downstream reasoning. Such a way of regularizing
self-attention with graph information significantly improves the inferring
ability and helps align features from different modalities. We validate the
effectiveness of Multimodal Graph Transformer over its Transformer baselines on
GQA, VQAv2, and MultiModalQA datasets.
- Abstract(参考訳): 視覚と言語タスクにおけるトランスフォーマーモデルの成功にもかかわらず、彼らはしばしば巨大なデータから知識を暗黙的に学び、構造化された入力データを直接利用できない。
一方で、事前情報を統合するグラフニューラルネットワーク(gnn)のような構造化学習アプローチは、トランスフォーマーモデルとはほとんど競合しない。
本研究では,両世界からメリットを享受し,複数のモダリティにまたがる推論を必要とする質問応答タスクのための,新しいマルチモーダルグラフトランスフォーマを提案する。
テキストや視覚データから取得したマルチモーダルグラフ情報をバニラ自己認識に有効に組み込むための,グラフを組み込んだプラグアンドプレイ擬似アテンション機構を導入する。
特に、テキストグラフ、高密度領域グラフ、セマンティックグラフを構築し、隣接行列を生成し、それらを入力ビジョンと言語特徴で構成し、下流推論を行う。
このようなグラフ情報によるセルフアテンションの正則化は推論能力を大幅に向上させ、異なるモダリティから機能を調整するのに役立つ。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
関連論文リスト
- p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding
and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。
このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。
研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文 参考訳(メタデータ) (2023-12-16T08:14:11Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - Learning on Large-scale Text-attributed Graphs via Variational Inference [44.558681850874336]
本稿では,各ノードがテキスト記述と関連付けられているテキスト分散グラフ(TAG)の学習について検討する。
本稿では,グラフ構造と言語学習を変動予測最大化フレームワークを用いて融合させることにより,大規模テキスト分散グラフ上での学習を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:40:57Z) - MMGA: Multimodal Learning with Graph Alignment [8.349066399479938]
本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。
MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。
われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
論文 参考訳(メタデータ) (2022-10-18T15:50:31Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Transformer for Graphs: An Overview from Architecture Perspective [86.3545861392215]
グラフのために既存のTransformerモデルを分類し、様々なグラフタスクでそれらの効果を体系的に研究することが不可欠です。
まず、既存のモデルを分解し、バニラ変換器にグラフ情報を組み込む典型的な3つの方法を結論付けます。
本実験は,Transformerにおける現在のグラフ固有のモジュールの利点を確認し,異なる種類のグラフタスクにおけるそれらの利点を明らかにする。
論文 参考訳(メタデータ) (2022-02-17T06:02:06Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。