Fugu-MT 論文翻訳(概要): Multimodal Reasoning with Multimodal Knowledge Graph

論文の概要: Multimodal Reasoning with Multimodal Knowledge Graph

arxiv url: http://arxiv.org/abs/2406.02030v2
Date: Wed, 5 Jun 2024 03:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 11:48:57.947994
Title: Multimodal Reasoning with Multimodal Knowledge Graph
Title（参考訳）: マルチモーダル知識グラフを用いたマルチモーダル推論
Authors: Junlin Lee, Yequan Wang, Jing Li, Min Zhang,
Abstract要約: 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
参考スコア（独自算出の注目度）: 19.899398342533722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal reasoning with large language models (LLMs) often suffers from hallucinations and the presence of deficient or outdated knowledge within LLMs. Some approaches have sought to mitigate these issues by employing textual knowledge graphs, but their singular modality of knowledge limits comprehensive cross-modal understanding. In this paper, we propose the Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG) method, which leverages multimodal knowledge graphs (MMKGs) to learn rich and semantic knowledge across modalities, significantly enhancing the multimodal reasoning capabilities of LLMs. In particular, a relation graph attention network is utilized for encoding MMKGs and a cross-modal alignment module is designed for optimizing image-text alignment. A MMKG-grounded dataset is constructed to equip LLMs with initial expertise in multimodal reasoning through pretraining. Remarkably, MR-MKG achieves superior performance while training on only a small fraction of parameters, approximately 2.25% of the LLM's parameter size. Experimental results on multimodal question answering and multimodal analogy reasoning tasks demonstrate that our MR-MKG method outperforms previous state-of-the-art models.
Abstract（参考訳）: 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚やLLM内の欠陥や時代遅れな知識の存在に悩まされることが多い。テキストナレッジグラフを用いてこれらの問題を緩和しようとするアプローチもあるが、その特異な知識のモダリティは総合的なクロスモーダル理解を制限している。本稿では,マルチモーダル知識グラフ(MMKG)を利用した多モーダル知識グラフを用いたマルチモーダル推論手法を提案する。特に、MMKGの符号化に関係グラフアテンションネットワークを用い、画像テキストアライメントを最適化するクロスモーダルアライメントモジュールを設計する。 MMKGを基底としたデータセットは、事前学習によるマルチモーダル推論において、初期の専門知識を持つLLMを装備するために構築される。注目すべきは、MR-MKG は LLM のパラメータの約 2.25% である少数のパラメータのみをトレーニングしながら、優れた性能を達成することである。マルチモーダル質問応答とマルチモーダル類似推論タスクの実験結果から, MR-MKG法が従来の最先端モデルより優れていることが示された。

関連論文リスト

VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [3.1033038923749774]
視覚情報,音声情報,テキスト情報を網羅する,概念中心の知識集約型マルチモーダル知識グラフを提案する。構築パイプラインは,マルチモーダルデータと細粒度セマンティクスの相互知識アライメントを保証する。本稿では,任意のモダリティからクエリに応答して,概念レベルの詳細な知識を検索する,新しいマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T07:22:57Z)
Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-06-08T16:48:42Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。 EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。 EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文参考訳（メタデータ） (2025-01-09T18:55:52Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-27T06:36:17Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。 M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文参考訳（メタデータ） (2024-04-24T08:50:45Z)
Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。しかし、複数の画像を含む文脈を理解するには不十分である。本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文参考訳（メタデータ） (2024-02-19T14:59:07Z)
MMKGR: Multi-hop Multi-modal Knowledge Graph Reasoning [40.60328470622483]
MMKGR(Multi-hop Multi-modal Knowledge Graph Reasoning)という新しいモデルを提案する。本モデルは,(1)十分な注意相互作用と雑音低減により効果的なマルチモーダル補間特徴を生成するために設計された統合ゲートアテンションネットワーク,(2)マルチホップ推論プロセスによって欠落要素を予測するために提案される補間特徴認識強化学習法を含む。実験の結果,MMKGRはMKG推論タスクにおける最先端手法よりも優れていた。
論文参考訳（メタデータ） (2022-09-03T13:07:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。