論文の概要: MGA-VQA: Secure and Interpretable Graph-Augmented Visual Question Answering with Memory-Guided Protection Against Unauthorized Knowledge Use
- arxiv url: http://arxiv.org/abs/2511.17881v1
- Date: Sat, 22 Nov 2025 02:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.491449
- Title: MGA-VQA: Secure and Interpretable Graph-Augmented Visual Question Answering with Memory-Guided Protection Against Unauthorized Knowledge Use
- Title(参考訳): MGA-VQA:無許可知識使用に対するメモリガイド保護によるグラフ拡張型視覚質問応答の安全性と解釈
- Authors: Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath,
- Abstract要約: Document Visual Question Answering (DocVQA)は、テキストの意味論、空間的レイアウト、視覚的特徴を共同で理解するモデルを必要とする。
トークンレベルの符号化,空間グラフ推論,メモリ拡張推論,質問誘導圧縮を統合したマルチモーダルフレームワークであるMGA-VQAを提案する。
- 参考スコア(独自算出の注目度): 1.580774794371876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) requires models to jointly understand textual semantics, spatial layout, and visual features. Current methods struggle with explicit spatial relationship modeling, inefficiency with high-resolution documents, multi-hop reasoning, and limited interpretability. We propose MGA-VQA, a multi-modal framework that integrates token-level encoding, spatial graph reasoning, memory-augmented inference, and question-guided compression. Unlike prior black-box models, MGA-VQA introduces interpretable graph-based decision pathways and structured memory access for enhanced reasoning transparency. Evaluation across six benchmarks (FUNSD, CORD, SROIE, DocVQA, STE-VQA, and RICO) demonstrates superior accuracy and efficiency, with consistent improvements in both answer prediction and spatial localization.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、テキストの意味論、空間的レイアウト、視覚的特徴を共同で理解するモデルを必要とする。
現在の手法は、明示的な空間関係モデリング、高解像度文書の非効率性、マルチホップ推論、限定的な解釈可能性に苦慮している。
トークンレベルの符号化,空間グラフ推論,メモリ拡張推論,質問誘導圧縮を統合したマルチモーダルフレームワークであるMGA-VQAを提案する。
従来のブラックボックスモデルとは異なり、MGA-VQAは解釈可能なグラフベースの決定経路と構造化メモリアクセスを導入し、推論の透明性を高めた。
6つのベンチマーク(FUNSD, CORD, SROIE, DocVQA, STE-VQA, RICO)による評価は、解答予測と空間的局所化の両面で一貫した改善とともに、精度と効率が向上している。
関連論文リスト
- Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - Graph is a Natural Regularization: Revisiting Vector Quantization for Graph Representation Learning [12.232364178523822]
本稿では,ベクトル量子化をグラフデータに適用した場合に,コードブックの崩壊が一貫して起こることを示す最初の実証的研究を示す。
グラフトポロジと特徴的類似性を明示的な正規化信号として統合し,コードブックの利用率を高め,トークンの多様性を促進する新しいフレームワークであるRGVQを提案する。
論文 参考訳(メタデータ) (2025-08-08T06:33:45Z) - MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Knowledge Graph Prompting for Multi-Document Question Answering [46.29217406937293]
我々は,多文書質問応答(MD-QA)を促す上で,適切なコンテキストを定式化するための知識グラフプロンプティング(KGP)手法を提案する。
グラフ構築のために、パスや文書構造(例えば、ページ/テーブル)を象徴するノードを持つ複数のドキュメントに知識グラフ(KG)を作成する。
論文 参考訳(メタデータ) (2023-08-22T18:41:31Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。