論文の概要: Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2402.12728v1
- Date: Tue, 20 Feb 2024 05:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:59:59.287818
- Title: Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering
- Title(参考訳): 知識に基づく視覚的質問応答のための大規模言語モデルとのモダリティ・アウェア統合
- Authors: Junnan Dong, Qinggang Zhang, Huachi Zhou, Daochen Zha, Pai Zheng, Xiao
Huang
- Abstract要約: KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。
MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
- 参考スコア(独自算出の注目度): 28.48844388792774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KVQA) has been extensively studied
to answer visual questions with external knowledge, e.g., knowledge graphs
(KGs). While several attempts have been proposed to leverage large language
models (LLMs) as an implicit knowledge source, it remains challenging since
LLMs may generate hallucinations. Moreover, multiple knowledge sources, e.g.,
images, KGs and LLMs, cannot be readily aligned for complex scenarios. To
tackle these, we present a novel modality-aware integration with LLMs for KVQA
(MAIL). It carefully leverages multimodal knowledge for both image
understanding and knowledge reasoning. Specifically, (i) we propose a two-stage
prompting strategy with LLMs to densely embody the image into a scene graph
with detailed visual features; (ii) We construct a coupled concept graph by
linking the mentioned entities with external facts. (iii) A tailored
pseudo-siamese graph medium fusion is designed for sufficient multimodal
fusion. We utilize the shared mentioned entities in two graphs as mediums to
bridge a tight inter-modal exchange, while maximally preserving insightful
intra-modal learning by constraining the fusion within mediums. Extensive
experiments on two benchmark datasets show the superiority of MAIL with 24x
less resources.
- Abstract(参考訳): 知識に基づく視覚的質問応答(KVQA)は、外部知識(例えば知識グラフ(KG))で視覚的質問に答えるために広く研究されている。
大型言語モデル(LLM)を暗黙の知識源として活用する試みがいくつか提案されているが、LLMは幻覚を発生させる可能性があるため、依然として難しい。
さらに、画像、KG、LLMなどの複数の知識ソースは、複雑なシナリオに対して容易に整列できない。
これらの課題に対処するために,KVQA (MAIL) のための LLM との新たなモダリティ対応統合を提案する。
画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
具体的には
(i)LLMを用いた2段階のプロンプト戦略を提案し,映像をシーングラフに密に具現化し,視覚的特徴を詳述する。
(II) 上記のエンティティと外部事実をリンクして結合した概念グラフを構築する。
(iii) 十分なマルチモーダル核融合のための擬似シアムグラフ媒体融合を設計する。
本稿では,2つのグラフの共有エンティティを媒体として,媒体内での融合を制限し,洞察に富んだモーダル内学習を最大限に保存しつつ,密接なモーダル間交換をブリッジする。
2つのベンチマークデータセットに対する大規模な実験は、リソースが24倍少ないMAILの優位性を示している。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multimodal Reasoning with Multimodal Knowledge Graph [19.899398342533722]
大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。
マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:13:23Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。