論文の概要: Multimodal Reasoning with Multimodal Knowledge Graph
- arxiv url: http://arxiv.org/abs/2406.02030v2
- Date: Wed, 5 Jun 2024 03:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:48:57.947994
- Title: Multimodal Reasoning with Multimodal Knowledge Graph
- Title(参考訳): マルチモーダル知識グラフを用いたマルチモーダル推論
- Authors: Junlin Lee, Yequan Wang, Jing Li, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。
マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
- 参考スコア(独自算出の注目度): 19.899398342533722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning with large language models (LLMs) often suffers from hallucinations and the presence of deficient or outdated knowledge within LLMs. Some approaches have sought to mitigate these issues by employing textual knowledge graphs, but their singular modality of knowledge limits comprehensive cross-modal understanding. In this paper, we propose the Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG) method, which leverages multimodal knowledge graphs (MMKGs) to learn rich and semantic knowledge across modalities, significantly enhancing the multimodal reasoning capabilities of LLMs. In particular, a relation graph attention network is utilized for encoding MMKGs and a cross-modal alignment module is designed for optimizing image-text alignment. A MMKG-grounded dataset is constructed to equip LLMs with initial expertise in multimodal reasoning through pretraining. Remarkably, MR-MKG achieves superior performance while training on only a small fraction of parameters, approximately 2.25% of the LLM's parameter size. Experimental results on multimodal question answering and multimodal analogy reasoning tasks demonstrate that our MR-MKG method outperforms previous state-of-the-art models.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚やLLM内の欠陥や時代遅れな知識の存在に悩まされることが多い。
テキストナレッジグラフを用いてこれらの問題を緩和しようとするアプローチもあるが、その特異な知識のモダリティは総合的なクロスモーダル理解を制限している。
本稿では,マルチモーダル知識グラフ(MMKG)を利用した多モーダル知識グラフを用いたマルチモーダル推論手法を提案する。
特に、MMKGの符号化に関係グラフアテンションネットワークを用い、画像テキストアライメントを最適化するクロスモーダルアライメントモジュールを設計する。
MMKGを基底としたデータセットは、事前学習によるマルチモーダル推論において、初期の専門知識を持つLLMを装備するために構築される。
注目すべきは、MR-MKG は LLM のパラメータの約 2.25% である少数のパラメータのみをトレーニングしながら、優れた性能を達成することである。
マルチモーダル質問応答とマルチモーダル類似推論タスクの実験結果から, MR-MKG法が従来の最先端モデルより優れていることが示された。
関連論文リスト
- Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Mixture of Modality Knowledge Experts for Robust Multi-modal Knowledge Graph Completion [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられたマルチモーダル知識グラフ(MMKG)において、新しい知識トリプルを自動的に発見することを目的としている。
既存の手法は、エレガントなエンティティワイドなマルチモーダル融合戦略の構築に重点を置いている傾向にあるが、様々な関係文脈下でモダリティ内に隠されたマルチパースペクティブな特徴の利用を見落としている。
本稿では,Mixture of Modality Knowledge Expert (MoMoK) を用いたMMKGCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering [28.48844388792774]
KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。
MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
論文 参考訳(メタデータ) (2024-02-20T05:32:24Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - MMKGR: Multi-hop Multi-modal Knowledge Graph Reasoning [40.60328470622483]
MMKGR(Multi-hop Multi-modal Knowledge Graph Reasoning)という新しいモデルを提案する。
本モデルは,(1)十分な注意相互作用と雑音低減により効果的なマルチモーダル補間特徴を生成するために設計された統合ゲートアテンションネットワーク,(2)マルチホップ推論プロセスによって欠落要素を予測するために提案される補間特徴認識強化学習法を含む。
実験の結果,MMKGRはMKG推論タスクにおける最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-03T13:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。