論文の概要: VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2506.21556v1
- Date: Wed, 11 Jun 2025 07:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.26213
- Title: VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation
- Title(参考訳): VAT-KG:検索型生成のための知識集約型マルチモーダル知識グラフデータセット
- Authors: Hyeongcheol Park, MinHyuk Jang, Ha Dam Baek, Gyusam Chang, Jiyoung Seo, Jiwan Park, Hogun Park, Sangpil Kim,
- Abstract要約: 視覚情報,音声情報,テキスト情報を網羅する,概念中心の知識集約型マルチモーダル知識グラフを提案する。
構築パイプラインは,マルチモーダルデータと細粒度セマンティクスの相互知識アライメントを保証する。
本稿では,任意のモダリティからクエリに応答して,概念レベルの詳細な知識を検索する,新しいマルチモーダルRAGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.1033038923749774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Knowledge Graphs (MMKGs), which represent explicit knowledge across multiple modalities, play a pivotal role by complementing the implicit knowledge of Multimodal Large Language Models (MLLMs) and enabling more grounded reasoning via Retrieval Augmented Generation (RAG). However, existing MMKGs are generally limited in scope: they are often constructed by augmenting pre-existing knowledge graphs, which restricts their knowledge, resulting in outdated or incomplete knowledge coverage, and they often support only a narrow range of modalities, such as text and visual information. These limitations reduce their extensibility and applicability to a broad range of multimodal tasks, particularly as the field shifts toward richer modalities such as video and audio in recent MLLMs. Therefore, we propose the Visual-Audio-Text Knowledge Graph (VAT-KG), the first concept-centric and knowledge-intensive multimodal knowledge graph that covers visual, audio, and text information, where each triplet is linked to multimodal data and enriched with detailed descriptions of concepts. Specifically, our construction pipeline ensures cross-modal knowledge alignment between multimodal data and fine-grained semantics through a series of stringent filtering and alignment steps, enabling the automatic generation of MMKGs from any multimodal dataset. We further introduce a novel multimodal RAG framework that retrieves detailed concept-level knowledge in response to queries from arbitrary modalities. Experiments on question answering tasks across various modalities demonstrate the effectiveness of VAT-KG in supporting MLLMs, highlighting its practical value in unifying and leveraging multimodal knowledge.
- Abstract(参考訳): マルチモーダル・ナレッジグラフ(MMKG)は、複数のモダリティにまたがる明示的な知識を表現するもので、MLLM(Multimodal Large Language Models)の暗黙的な知識を補完し、Retrieval Augmented Generation(RAG)を介してより基礎的な推論を可能にする。
しかし、既存のMMKGは一般的に範囲が限られており、既存の知識グラフを拡張して知識を制限し、時代遅れまたは不完全な知識カバレッジをもたらすことがあり、テキストや視覚情報のような限られた範囲のモダリティしかサポートしないことが多い。
これらの制限は、特に最近のMLLMにおけるビデオやオーディオのようなよりリッチなモダリティへのフィールドシフトによって、幅広いマルチモーダルタスクへの拡張性と適用性を低下させる。
そこで本研究では,視覚,音声,テキスト情報を網羅する,概念中心かつ知識集約型のマルチモーダル知識グラフであるVisual-Audio-Text Knowledge Graph (VAT-KG)を提案する。
具体的には,マルチモーダルデータと細粒度セマンティクスの相互知識アライメントを一連の文字列フィルタリングとアライメントステップによって保証し,任意のマルチモーダルデータセットからMMKGの自動生成を可能にする。
さらに、任意のモダリティからのクエリに応答して詳細な概念レベルの知識を検索する、新しいマルチモーダルRAGフレームワークを導入する。
様々なモダリティにまたがる質問応答タスクの実験は、マルチモーダル知識の統合と活用における実用的価値を強調し、MLLMをサポートする上でのVAT-KGの有効性を示す。
関連論文リスト
- Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG)は、外部の動的情報を統合することで問題を軽減し、現実のグラウンドを改善する。
クロスモーダルアライメントと推論は、単調なRAG以上の難題をもたらす。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文 参考訳(メタデータ) (2025-02-12T22:33:41Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multimodal Reasoning with Multimodal Knowledge Graph [19.899398342533722]
大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。
マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:13:23Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。