論文の概要: Multimodal Reasoning with Multimodal Knowledge Graph
- arxiv url: http://arxiv.org/abs/2406.02030v2
- Date: Wed, 5 Jun 2024 03:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:48:57.947994
- Title: Multimodal Reasoning with Multimodal Knowledge Graph
- Title(参考訳): マルチモーダル知識グラフを用いたマルチモーダル推論
- Authors: Junlin Lee, Yequan Wang, Jing Li, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。
マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
- 参考スコア(独自算出の注目度): 19.899398342533722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning with large language models (LLMs) often suffers from hallucinations and the presence of deficient or outdated knowledge within LLMs. Some approaches have sought to mitigate these issues by employing textual knowledge graphs, but their singular modality of knowledge limits comprehensive cross-modal understanding. In this paper, we propose the Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG) method, which leverages multimodal knowledge graphs (MMKGs) to learn rich and semantic knowledge across modalities, significantly enhancing the multimodal reasoning capabilities of LLMs. In particular, a relation graph attention network is utilized for encoding MMKGs and a cross-modal alignment module is designed for optimizing image-text alignment. A MMKG-grounded dataset is constructed to equip LLMs with initial expertise in multimodal reasoning through pretraining. Remarkably, MR-MKG achieves superior performance while training on only a small fraction of parameters, approximately 2.25% of the LLM's parameter size. Experimental results on multimodal question answering and multimodal analogy reasoning tasks demonstrate that our MR-MKG method outperforms previous state-of-the-art models.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚やLLM内の欠陥や時代遅れな知識の存在に悩まされることが多い。
テキストナレッジグラフを用いてこれらの問題を緩和しようとするアプローチもあるが、その特異な知識のモダリティは総合的なクロスモーダル理解を制限している。
本稿では,マルチモーダル知識グラフ(MMKG)を利用した多モーダル知識グラフを用いたマルチモーダル推論手法を提案する。
特に、MMKGの符号化に関係グラフアテンションネットワークを用い、画像テキストアライメントを最適化するクロスモーダルアライメントモジュールを設計する。
MMKGを基底としたデータセットは、事前学習によるマルチモーダル推論において、初期の専門知識を持つLLMを装備するために構築される。
注目すべきは、MR-MKG は LLM のパラメータの約 2.25% である少数のパラメータのみをトレーニングしながら、優れた性能を達成することである。
マルチモーダル質問応答とマルチモーダル類似推論タスクの実験結果から, MR-MKG法が従来の最先端モデルより優れていることが示された。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering [28.48844388792774]
KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。
MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
論文 参考訳(メタデータ) (2024-02-20T05:32:24Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MMKGR: Multi-hop Multi-modal Knowledge Graph Reasoning [40.60328470622483]
MMKGR(Multi-hop Multi-modal Knowledge Graph Reasoning)という新しいモデルを提案する。
本モデルは,(1)十分な注意相互作用と雑音低減により効果的なマルチモーダル補間特徴を生成するために設計された統合ゲートアテンションネットワーク,(2)マルチホップ推論プロセスによって欠落要素を予測するために提案される補間特徴認識強化学習法を含む。
実験の結果,MMKGRはMKG推論タスクにおける最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-03T13:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。