論文の概要: Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2402.12728v2
- Date: Sun, 3 Mar 2024 04:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:00:56.838854
- Title: Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering
- Title(参考訳): 知識に基づく視覚的質問応答のための大規模言語モデルとのモダリティ・アウェア統合
- Authors: Junnan Dong, Qinggang Zhang, Huachi Zhou, Daochen Zha, Pai Zheng, Xiao
Huang
- Abstract要約: KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。
MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
- 参考スコア(独自算出の注目度): 28.48844388792774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KVQA) has been extensively studied
to answer visual questions with external knowledge, e.g., knowledge graphs
(KGs). While several attempts have been proposed to leverage large language
models (LLMs) as an implicit knowledge source, it remains challenging since
LLMs may generate hallucinations. Moreover, multiple knowledge sources, e.g.,
images, KGs and LLMs, cannot be readily aligned for complex scenarios. To
tackle these, we present a novel modality-aware integration with LLMs for KVQA
(MAIL). It carefully leverages multimodal knowledge for both image
understanding and knowledge reasoning. Specifically, (i) we propose a two-stage
prompting strategy with LLMs to densely embody the image into a scene graph
with detailed visual features; (ii) We construct a coupled concept graph by
linking the mentioned entities with external facts. (iii) A tailored
pseudo-siamese graph medium fusion is designed for sufficient multimodal
fusion. We utilize the shared mentioned entities in two graphs as mediums to
bridge a tight inter-modal exchange, while maximally preserving insightful
intra-modal learning by constraining the fusion within mediums. Extensive
experiments on two benchmark datasets show the superiority of MAIL with 24x
less resources.
- Abstract(参考訳): 知識に基づく視覚的質問応答(KVQA)は、外部知識(例えば知識グラフ(KG))で視覚的質問に答えるために広く研究されている。
大型言語モデル(LLM)を暗黙の知識源として活用する試みがいくつか提案されているが、LLMは幻覚を発生させる可能性があるため、依然として難しい。
さらに、画像、KG、LLMなどの複数の知識ソースは、複雑なシナリオに対して容易に整列できない。
これらの課題に対処するために,KVQA (MAIL) のための LLM との新たなモダリティ対応統合を提案する。
画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
具体的には
(i)LLMを用いた2段階のプロンプト戦略を提案し,映像をシーングラフに密に具現化し,視覚的特徴を詳述する。
(II) 上記のエンティティと外部事実をリンクして結合した概念グラフを構築する。
(iii) 十分なマルチモーダル核融合のための擬似シアムグラフ媒体融合を設計する。
本稿では,2つのグラフの共有エンティティを媒体として,媒体内での融合を制限し,洞察に富んだモーダル内学習を最大限に保存しつつ,密接なモーダル間交換をブリッジする。
2つのベンチマークデータセットに対する大規模な実験は、リソースが24倍少ないMAILの優位性を示している。
関連論文リスト
- MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - On Exploring the Reasoning Capability of Large Language Models with
Knowledge Graphs [11.878708460150726]
学習前の知識グラフからの情報をリコールする際のLLMの精度について2つの研究質問を定式化する。
これらの問題に対処するため,LLMを用いて4つの知識グラフ推論タスクを実行する。
実験の結果, LLMは, 単純かつ複雑な知識グラフ推論タスクを自身のメモリから処理できることがわかった。
論文 参考訳(メタデータ) (2023-12-01T05:08:47Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。