論文の概要: KG-ViP: Bridging Knowledge Grounding and Visual Perception in Multi-modal LLMs for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2601.11632v1
- Date: Wed, 14 Jan 2026 07:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.229569
- Title: KG-ViP: Bridging Knowledge Grounding and Visual Perception in Multi-modal LLMs for Visual Question Answering
- Title(参考訳): KG-ViP:視覚質問応答のための多モードLCMにおける知識基盤と視覚知覚のブリッジング
- Authors: Zhiyang Li, Ao Ke, Yukun Cao, Xike Xie,
- Abstract要約: KG-ViPはシーングラフとコモンセンスグラフを融合してMLLMを強化する統一フレームワークである。
KG-ViPフレームワークの中核は、クエリをセマンティックブリッジとして利用して、両方のグラフを段階的に統合する、新しい検索/融合パイプラインである。
- 参考スコア(独自算出の注目度): 18.921632630913713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) for Visual Question Answering (VQA) often suffer from dual limitations: knowledge hallucination and insufficient fine-grained visual perception. Crucially, we identify that commonsense graphs and scene graphs provide precisely complementary solutions to these respective deficiencies by providing rich external knowledge and capturing fine-grained visual details. However, prior works typically treat them in isolation, overlooking their synergistic potential. To bridge this gap, we propose KG-ViP, a unified framework that empowers MLLMs by fusing scene graphs and commonsense graphs. The core of the KG-ViP framework is a novel retrieval-and-fusion pipeline that utilizes the query as a semantic bridge to progressively integrate both graphs, synthesizing a unified structured context that facilitates reliable multi-modal reasoning. Extensive experiments on FVQA 2.0+ and MVQA benchmarks demonstrate that KG-ViP significantly outperforms existing VQA methods.
- Abstract(参考訳): 視覚質問回答のためのMLLM(Multi-modal Large Language Models)は、知識幻覚と微粒な視覚知覚の不足という2つの限界に悩まされることが多い。
重要な点として、コモンセンスグラフとシーングラフは、豊かな外部知識を提供し、きめ細かい視覚的詳細を捉えることによって、これらの欠陥に対して正確に補完的な解決策を提供する。
しかし、先行研究は通常、それらのシナジスティックなポテンシャルを見越して、それらを単独で扱う。
このギャップを埋めるために,シーングラフとコモンセンスグラフを融合させてMLLMを強化する統一フレームワークKG-ViPを提案する。
KG-ViPフレームワークの中核は、クエリをセマンティックブリッジとして利用して、両方のグラフを段階的に統合し、信頼性の高いマルチモーダル推論を容易にする統一的な構造化コンテキストを合成する、新しい検索/融合パイプラインである。
FVQA 2.0+とMVQAベンチマークの大規模な実験は、KG-ViPが既存のVQA法よりも大幅に優れていることを示した。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [70.44416154144001]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering [28.48844388792774]
KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。
MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
論文 参考訳(メタデータ) (2024-02-20T05:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。