論文の概要: GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2104.10283v1
- Date: Tue, 20 Apr 2021 23:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:36:44.237490
- Title: GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual
Question Answering
- Title(参考訳): GraghVQA: グラフベースのビジュアル質問回答のための言語ガイド型グラフニューラルネットワーク
- Authors: Weixin Liang, Yanhao Jiang and Zixuan Liu
- Abstract要約: Scene Graphはオブジェクトをエッジとしてペアワイズリレーションを介して接続されたノードとしてエンコードします。
自然言語質問の翻訳と実行を行う言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GQAデータセットに対する実験により、GraphVQAは最先端の精度を大きなマージンで上回ることを示した。
- 参考スコア(独自算出の注目度): 4.673063715963991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images are more than a collection of objects or attributes -- they represent
a web of relationships among interconnected objects. Scene Graph has emerged as
a new modality as a structured graphical representation of images. Scene Graph
encodes objects as nodes connected via pairwise relations as edges. To support
question answering on scene graphs, we propose GraphVQA, a language-guided
graph neural network framework that translates and executes a natural language
question as multiple iterations of message passing among graph nodes. We
explore the design space of GraphVQA framework, and discuss the trade-off of
different design choices. Our experiments on GQA dataset show that GraphVQA
outperforms the state-of-the-art accuracy by a large margin (88.43% vs.
94.78%).
- Abstract(参考訳): イメージはオブジェクトや属性の集まり以上のものです -- 相互接続されたオブジェクト間の関係のwebを表しています。
scene graphは画像の構造化グラフィカル表現として新しいモダリティとして登場した。
scene graphはオブジェクトをエッジとしてペアリレーションを介して接続されたノードとしてエンコードする。
シーングラフ上での質問応答を支援するために,グラフノード間のメッセージパッシングの繰り返しとして自然言語質問を翻訳・実行する言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GraphVQAフレームワークの設計領域について検討し、異なる設計選択のトレードオフについて議論する。
GQAデータセットに関する我々の実験は、GraphVQAが最先端の精度を大きなマージン(88.43%対94.78%)で上回っていることを示している。
関連論文リスト
- G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language
Models [33.56759621666477]
本稿では,言語モデルへのグラフ知識の統合を評価するためのベンチマークデータセットを提案する。
提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。
言語のみのモデルと提案したグラフ言語モデルを用いて,ペアグラフの有用性を検証し,課題の難しさを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:46:58Z) - SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based
Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。
理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。
本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文 参考訳(メタデータ) (2023-10-03T07:14:53Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Interactive Visual Pattern Search on Graph Data via Graph Representation
Learning [20.795511688640296]
視覚分析システムGraphQは、ループ内、サンプルベース、サブグラフパターン検索をサポートする。
高速で対話的なクエリをサポートするために、グラフニューラルネットワーク(GNN)を使用して、グラフを固定長潜在ベクトル表現としてエンコードする。
また,NuroAlignと呼ばれるノードアライメントのための新しいGNNを提案し,クエリ結果の検証と解釈を容易にする。
論文 参考訳(メタデータ) (2022-02-18T22:30:28Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。