論文の概要: Hybrid-DMKG: A Hybrid Reasoning Framework over Dynamic Multimodal Knowledge Graphs for Multimodal Multihop QA with Knowledge Editing
- arxiv url: http://arxiv.org/abs/2512.00881v1
- Date: Sun, 30 Nov 2025 12:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.474023
- Title: Hybrid-DMKG: A Hybrid Reasoning Framework over Dynamic Multimodal Knowledge Graphs for Multimodal Multihop QA with Knowledge Editing
- Title(参考訳): Hybrid-DMKG:知識編集を伴うマルチモーダルマルチホップQAのための動的マルチモーダル知識グラフを用いたハイブリッド推論フレームワーク
- Authors: Li Yuan, Qingfei Huang, Bingshan Zhu, Yi Cai, Qingbao Huang, Changmeng Zheng, Zikun Deng, Tao Wang,
- Abstract要約: 知識編集を伴うマルチモーダルマルチホップ質問に対する最初のベンチマークであるMMQAKEを紹介する。
MMQAKEは、テキストとイメージの両方にまたがる2-5ホップのファクトチェーンを推論するモデルの能力を評価する。
動的マルチモーダル知識グラフ上に構築されたハイブリッド推論フレームワークであるHybrid-DMKGを提案する。
- 参考スコア(独自算出の注目度): 34.09206338638645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Knowledge Editing (MKE) extends traditional knowledge editing to settings involving both textual and visual modalities. However, existing MKE benchmarks primarily assess final answer correctness while neglecting the quality of intermediate reasoning and robustness to visually rephrased inputs. To address this limitation, we introduce MMQAKE, the first benchmark for multimodal multihop question answering with knowledge editing. MMQAKE evaluates (1) a model's ability to reason over 2-5-hop factual chains that span both text and images, including performance at each intermediate step, and (2) robustness to visually rephrased inputs in multihop questions. Our evaluation shows that current MKE methods often struggle to consistently update and reason over multimodal reasoning chains after knowledge edits. To overcome these challenges, we propose Hybrid-DMKG, a hybrid reasoning framework built on a dynamic multimodal knowledge graph (DMKG) to enable accurate multihop reasoning over updated multimodal knowledge. Hybrid-DMKG first uses a large language model to decompose multimodal multihop questions into sequential sub-questions, then applies a multimodal retrieval model to locate updated facts by jointly encoding each sub-question with candidate entities and their associated images. For answer inference, a hybrid reasoning module operates over the DMKG via two parallel paths: (1) relation linking prediction, and (2) RAG reasoning with large vision-language models. A decision module aggregates evidence from both paths to select the most credible answer. Experimental results on MMQAKE show that Hybrid-DMKG significantly outperforms existing MKE approaches, achieving higher accuracy and improved robustness to knowledge updates.
- Abstract(参考訳): MKE(Multimodal Knowledge Editing)は、従来の知識編集をテキストと視覚の両方のモダリティを含む設定に拡張する。
しかし、既存のMKEベンチマークは、中間的推論の質や、視覚的に言い換えられた入力に対する頑健さを無視しながら、最終的な答えの正しさを主に評価している。
この制限に対処するため、知識編集を伴うマルチモーダルマルチホップ質問に対する最初のベンチマークであるMMQAKEを紹介する。
MMQAKEは(1)テキストと画像の両方にまたがる2-5ホップの事実連鎖を推論するモデルの能力を評価し、(2)マルチホップ質問における入力を視覚的に表現する堅牢性を評価する。
評価の結果,現在のMKE手法は知識編集後のマルチモーダル推論チェーンの更新と推論に難色を示すことが多い。
これらの課題を解決するために,動的マルチモーダル知識グラフ(DMKG)上に構築されたハイブリッド推論フレームワークであるHybrid-DMKGを提案する。
ハイブリットDMKGはまず,複数モーダルなマルチホップ質問を逐次サブクエストに分解する大規模言語モデルを用いて,各サブクエストを候補エンティティとその関連画像と共同で符号化することで,更新された事実を特定するマルチモーダル検索モデルを適用する。
回答推論において,ハイブリッド推論モジュールは,(1)関係リンク予測,(2)RAG推論の2つの並列経路を介してDMKG上で動作する。
決定モジュールは、最も信頼できる答えを選択するために、両方の経路から証拠を集約する。
MMQAKEの実験結果から,Hybrid-DMKGは既存のMKEアプローチを著しく上回り,精度の向上と知識更新に対する堅牢性の向上を実現している。
関連論文リスト
- MMD-Thinker: Adaptive Multi-Dimensional Thinking for Multimodal Misinformation Detection [8.06079393106578]
マルチモーダルな誤報はさまざまなソーシャルメディアに溢れ、AIGC(AIGC)の時代においても進化を続けている。
近年の研究では、汎用多目的大言語モデル(MLLM)を活用して、検出において顕著な結果が得られている。
適応型多次元思考によるマルチモーダル誤情報検出のための2段階フレームワークであるMDD-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-11-17T11:04:30Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding [11.004677535859342]
本稿では,Multi-turn Multi-modal Clarifying Questions (MMCQ)タスクを紹介する。
MMCQはテキストと視覚のモダリティを組み合わせて、マルチターン会話でユーザクエリを洗練させる。
マルチターンマルチモーダルの明確化はユニモーダルとシングルターンのアプローチよりも優れ、MRRを12.88%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-17T04:58:14Z) - An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism [14.479060028732803]
マルチモーダルなマルチホップ質問応答の現在の手法は、主に2つの課題に直面している。
大量の冗長な情報を含む検索された証拠は、性能を著しく低下させる。
解釈可能な推論ステップのない推論プロセスは、複雑な問題を扱うための論理的誤りを発見するのを難しくする。
論文 参考訳(メタデータ) (2024-12-08T05:47:55Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。