論文の概要: MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2503.18491v1
- Date: Mon, 24 Mar 2025 09:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:16.737049
- Title: MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering
- Title(参考訳): MAGIC-VQA:視覚質問応答のための共通知識を用いたマルチモーダル・グラウンドド推論
- Authors: Shuo Yang, Siwen Luo, Soyeon Caren Han, Eduard Hovy,
- Abstract要約: 本稿では,広視野言語モデル(LVLM)と共通知識を体系的に統合することにより,視覚質問応答(VQA)を向上させる新しいフレームワークであるMAGIC-VQAを紹介する。
MAGIC-VQAは、外部ソースからの明示的な知識統合、コンテキストの洗練のためのBY-Type Post-Processing、構造化推論のためのグラフニューラルネットワーク(GNN)を用いたインプシット知識拡張という3段階のプロセスを採用している。
我々のフレームワークは,ベンチマークデータセット上での最先端性能を実現し,VQAにおける常識推論を大幅に改善する。
- 参考スコア(独自算出の注目度): 13.688881081075472
- License:
- Abstract: Visual Question Answering (VQA) requires reasoning across visual and textual modalities, yet Large Vision-Language Models (LVLMs) often lack integrated commonsense knowledge, limiting their robustness in real-world scenarios. To address this, we introduce MAGIC-VQA, a novel framework that enhances VQA by systematically integrating commonsense knowledge with LVLMs. MAGIC-VQA employs a three-stage process: (1) Explicit Knowledge Integration from external sources, (2) By-Type Post-Processing for contextual refinement, and (3) Implicit Knowledge Augmentation using a Graph Neural Network (GNN) for structured reasoning. While GNNs bring greater depth to structured inference, they enable superior relational inference beyond LVLMs. MAGIC-VQA bridges a key gap by unifying commonsensse knowledge with LVLM-driven reasoning, eliminating the need for extensive pre-training or complex prompt tuning. Our framework achieves state-of-the-art performance on benchmark datasets, significantly improving commonsense reasoning in VQA.
- Abstract(参考訳): VQA(Visual Question Answering)は、視覚的およびテキスト的モダリティをまたがる推論を必要とするが、LVLM(Large Vision-Language Models)は、しばしばコモンセンスの知識を欠いているため、現実のシナリオにおけるロバスト性を制限している。
そこで本研究では,共通知識をLVLMと体系的に統合し,VQAを強化する新しいフレームワークであるMAGIC-VQAを紹介する。
MAGIC-VQAは,(1)外部ソースからの明示的な知識統合,(2)コンテキスト改善のためのバイタイプ後処理,(3)構造化推論のためのグラフニューラルネットワーク(GNN)を用いたインプシット知識拡張という3段階のプロセスを採用している。
GNNは構造的推論に深い深度をもたらすが、LVLMよりも優れた関係推論を可能にする。
MAGIC-VQAはLVLM駆動推論とコモンセンス知識を統一することで重要なギャップを埋め、広範な事前学習や複雑なプロンプトチューニングの必要性を排除している。
我々のフレームワークは,ベンチマークデータセット上での最先端性能を実現し,VQAにおける常識推論を大幅に改善する。
関連論文リスト
- A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。
KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。
KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。
CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文 参考訳(メタデータ) (2024-03-11T03:42:03Z) - Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文 参考訳(メタデータ) (2024-01-18T14:21:56Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - MuKEA: Multimodal Knowledge Extraction and Accumulation for
Knowledge-based Visual Question Answering [23.628740943735167]
視覚的対象と事実の回答を暗黙の関係で関連付けるために,明快な三重項によるマルチモーダル知識を表現するためにMuKEAを提案する。
事前学習と微調整の学習戦略を採用することで、基礎知識とドメイン固有のマルチモーダル知識の両方を段階的に蓄積し、回答予測を行う。
論文 参考訳(メタデータ) (2022-03-17T07:42:14Z) - GreaseLM: Graph REASoning Enhanced Language Models for Question
Answering [159.9645181522436]
GreaseLMは、事前訓練されたLMとグラフニューラルネットワークの符号化された表現を、複数の層にわたるモダリティ相互作用操作で融合する新しいモデルである。
GreaseLMは、状況制約と構造化知識の両方の推論を必要とする問題に、より確実に答えることができる。
論文 参考訳(メタデータ) (2022-01-21T19:00:05Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。