論文の概要: Taming the Untamed: Graph-Based Knowledge Retrieval and Reasoning for MLLMs to Conquer the Unknown
- arxiv url: http://arxiv.org/abs/2506.17589v2
- Date: Thu, 26 Jun 2025 01:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 11:26:03.743084
- Title: Taming the Untamed: Graph-Based Knowledge Retrieval and Reasoning for MLLMs to Conquer the Unknown
- Title(参考訳): MLLMのグラフに基づく知識検索と推論による未知の知識の抽出
- Authors: Bowen Wang, Zhouqiang Jiang, Yasuaki Susumu, Shotaro Miwa, Tianwei Chen, Yuta Nakashima,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、限られた関連する知識のため、ほとんど遭遇しないドメイン固有のタスクで失敗することが多い。
マルチモーダル・ナレッジグラフ (MH-MMKG) を構築し, マルチモーダルと複雑な実体関係を包含する。
また,MH-MMKGに基づく複雑な知識検索と推論のためのモデルの能力を評価するために,一連の挑戦的なクエリを設計する。
- 参考スコア(独自算出の注目度): 14.8657860984074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real value of knowledge lies not just in its accumulation, but in its potential to be harnessed effectively to conquer the unknown. Although recent multimodal large language models (MLLMs) exhibit impressing multimodal capabilities, they often fail in rarely encountered domain-specific tasks due to limited relevant knowledge. To explore this, we adopt visual game cognition as a testbed and select Monster Hunter: World as the target to construct a multimodal knowledge graph (MH-MMKG), which incorporates multi-modalities and intricate entity relations. We also design a series of challenging queries based on MH-MMKG to evaluate the models' ability for complex knowledge retrieval and reasoning. Furthermore, we propose a multi-agent retriever that enables a model to autonomously search relevant knowledge without additional training. Experimental results show that our approach significantly enhances the performance of MLLMs, providing a new perspective on multimodal knowledge-augmented reasoning and laying a solid foundation for future research.
- Abstract(参考訳): 知識の真の価値はその蓄積に限らず、未知の領域を効果的に征服する可能性にある。
近年のマルチモーダル・大規模言語モデル(MLLM)は多モーダルな能力を示すが、関連する知識が限られているため、しばしばドメイン固有のタスクで失敗する。
そこで我々は,マルチモーダルな知識グラフ(MH-MMKG)を構築するターゲットとして,視覚ゲーム認知をテストベッドとして採用し,モンスターハンター:世界を選択する。
また,MH-MMKGに基づく複雑な知識検索と推論のためのモデルの能力を評価するために,一連の挑戦的なクエリを設計する。
さらに,モデルが付加的なトレーニングを伴わずに,関連する知識を自律的に検索することのできるマルチエージェント検索手法を提案する。
実験の結果,本手法はMLLMの性能を著しく向上させ,マルチモーダルな知識増進推論の新たな視点を与え,今後の研究の基盤を築き上げた。
関連論文リスト
- PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models [30.909294336713845]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な進歩を見せている。
しかし、この驚くべき進歩は、インターネットから収集された膨大な量のデータに依存し、プライバシーとセキュリティに関する重大な懸念を引き起こしている。
機械学習(MU)は有望なソリューションとして登場し、スクラッチからトレーニングを必要とせずに、すでにトレーニング済みのモデルから特定の知識を取り除くことができる。
論文 参考訳(メタデータ) (2025-03-16T15:26:20Z) - Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。
しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。
MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文 参考訳(メタデータ) (2025-03-03T09:01:51Z) - CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。
MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。
提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-03-01T09:25:23Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing [21.760293271882997]
マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である
現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
論文 参考訳(メタデータ) (2024-02-18T07:15:03Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。