論文の概要: Multimodal Graph Transformer for Multimodal Question Answering
- arxiv url: http://arxiv.org/abs/2305.00581v1
- Date: Sun, 30 Apr 2023 21:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:27:50.086635
- Title: Multimodal Graph Transformer for Multimodal Question Answering
- Title(参考訳): マルチモーダル質問応答のためのマルチモーダルグラフ変換器
- Authors: Xuehai He, Xin Eric Wang
- Abstract要約: 本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
- 参考スコア(独自算出の注目度): 9.292566397511763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Transformer models in vision and language tasks, they
often learn knowledge from enormous data implicitly and cannot utilize
structured input data directly. On the other hand, structured learning
approaches such as graph neural networks (GNNs) that integrate prior
information can barely compete with Transformer models. In this work, we aim to
benefit from both worlds and propose a novel Multimodal Graph Transformer for
question answering tasks that requires performing reasoning across multiple
modalities. We introduce a graph-involved plug-and-play quasi-attention
mechanism to incorporate multimodal graph information, acquired from text and
visual data, to the vanilla self-attention as effective prior. In particular,
we construct the text graph, dense region graph, and semantic graph to generate
adjacency matrices, and then compose them with input vision and language
features to perform downstream reasoning. Such a way of regularizing
self-attention with graph information significantly improves the inferring
ability and helps align features from different modalities. We validate the
effectiveness of Multimodal Graph Transformer over its Transformer baselines on
GQA, VQAv2, and MultiModalQA datasets.
- Abstract(参考訳): 視覚と言語タスクにおけるトランスフォーマーモデルの成功にもかかわらず、彼らはしばしば巨大なデータから知識を暗黙的に学び、構造化された入力データを直接利用できない。
一方で、事前情報を統合するグラフニューラルネットワーク(gnn)のような構造化学習アプローチは、トランスフォーマーモデルとはほとんど競合しない。
本研究では,両世界からメリットを享受し,複数のモダリティにまたがる推論を必要とする質問応答タスクのための,新しいマルチモーダルグラフトランスフォーマを提案する。
テキストや視覚データから取得したマルチモーダルグラフ情報をバニラ自己認識に有効に組み込むための,グラフを組み込んだプラグアンドプレイ擬似アテンション機構を導入する。
特に、テキストグラフ、高密度領域グラフ、セマンティックグラフを構築し、隣接行列を生成し、それらを入力ビジョンと言語特徴で構成し、下流推論を行う。
このようなグラフ情報によるセルフアテンションの正則化は推論能力を大幅に向上させ、異なるモダリティから機能を調整するのに役立つ。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
関連論文リスト
- Task-Oriented Communication for Graph Data: A Graph Information Bottleneck Approach [12.451324619122405]
本稿では,コミュニケーションのオーバーヘッドを低減しつつ,鍵情報を保持するタスク中心のより小さなサブグラフを抽出する手法を提案する。
提案手法では,グラフニューラルネットワーク(GNN)とグラフ情報ボトルネック(GIB)の原理を用いて,伝達に適したコンパクトで情報的,堅牢なグラフ表現を生成する。
論文 参考訳(メタデータ) (2024-09-04T14:01:56Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - GraSAME: Injecting Token-Level Structural Information to Pretrained Language Models via Graph-guided Self-Attention Mechanism [10.573861741540853]
本研究では,事前学習型言語モデルのためのグラフ誘導型自己注意機構GraSAMEを提案する。
GraSAMEはトークンレベルの構造情報をPLMにシームレスに組み込む。
グラフからテキストへの生成タスクの実験では,GraSAMEがベースラインモデルより優れ,WebNLGデータセット上での最先端(SOTA)モデルに匹敵する結果が得られることを示した。
論文 参考訳(メタデータ) (2024-04-10T11:03:57Z) - When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding
and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。
このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。
研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文 参考訳(メタデータ) (2023-12-16T08:14:11Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - MMGA: Multimodal Learning with Graph Alignment [8.349066399479938]
本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。
MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。
われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
論文 参考訳(メタデータ) (2022-10-18T15:50:31Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Transformer for Graphs: An Overview from Architecture Perspective [86.3545861392215]
グラフのために既存のTransformerモデルを分類し、様々なグラフタスクでそれらの効果を体系的に研究することが不可欠です。
まず、既存のモデルを分解し、バニラ変換器にグラフ情報を組み込む典型的な3つの方法を結論付けます。
本実験は,Transformerにおける現在のグラフ固有のモジュールの利点を確認し,異なる種類のグラフタスクにおけるそれらの利点を明らかにする。
論文 参考訳(メタデータ) (2022-02-17T06:02:06Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。