Fugu-MT 論文翻訳(概要): Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

論文の概要: Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

arxiv url: http://arxiv.org/abs/2402.12728v2
Date: Sun, 3 Mar 2024 04:51:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 00:00:56.838854
Title: Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering
Title（参考訳）: 知識に基づく視覚的質問応答のための大規模言語モデルとのモダリティ・アウェア統合
Authors: Junnan Dong, Qinggang Zhang, Huachi Zhou, Daochen Zha, Pai Zheng, Xiao Huang
Abstract要約: KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。 MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。 2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
参考スコア（独自算出の注目度）: 28.48844388792774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge-based visual question answering (KVQA) has been extensively studied to answer visual questions with external knowledge, e.g., knowledge graphs (KGs). While several attempts have been proposed to leverage large language models (LLMs) as an implicit knowledge source, it remains challenging since LLMs may generate hallucinations. Moreover, multiple knowledge sources, e.g., images, KGs and LLMs, cannot be readily aligned for complex scenarios. To tackle these, we present a novel modality-aware integration with LLMs for KVQA (MAIL). It carefully leverages multimodal knowledge for both image understanding and knowledge reasoning. Specifically, (i) we propose a two-stage prompting strategy with LLMs to densely embody the image into a scene graph with detailed visual features; (ii) We construct a coupled concept graph by linking the mentioned entities with external facts. (iii) A tailored pseudo-siamese graph medium fusion is designed for sufficient multimodal fusion. We utilize the shared mentioned entities in two graphs as mediums to bridge a tight inter-modal exchange, while maximally preserving insightful intra-modal learning by constraining the fusion within mediums. Extensive experiments on two benchmark datasets show the superiority of MAIL with 24x less resources.
Abstract（参考訳）: 知識に基づく視覚的質問応答(KVQA)は、外部知識(例えば知識グラフ(KG))で視覚的質問に答えるために広く研究されている。大型言語モデル(LLM)を暗黙の知識源として活用する試みがいくつか提案されているが、LLMは幻覚を発生させる可能性があるため、依然として難しい。さらに、画像、KG、LLMなどの複数の知識ソースは、複雑なシナリオに対して容易に整列できない。これらの課題に対処するために,KVQA (MAIL) のための LLM との新たなモダリティ対応統合を提案する。画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。具体的には (i)LLMを用いた2段階のプロンプト戦略を提案し,映像をシーングラフに密に具現化し,視覚的特徴を詳述する。 (II) 上記のエンティティと外部事実をリンクして結合した概念グラフを構築する。 (iii) 十分なマルチモーダル核融合のための擬似シアムグラフ媒体融合を設計する。本稿では,2つのグラフの共有エンティティを媒体として,媒体内での融合を制限し,洞察に富んだモーダル内学習を最大限に保存しつつ,密接なモーダル間交換をブリッジする。 2つのベンチマークデータセットに対する大規模な実験は、リソースが24倍少ないMAILの優位性を示している。

関連論文リスト

KG-ViP: Bridging Knowledge Grounding and Visual Perception in Multi-modal LLMs for Visual Question Answering [18.921632630913713]
KG-ViPはシーングラフとコモンセンスグラフを融合してMLLMを強化する統一フレームワークである。 KG-ViPフレームワークの中核は、クエリをセマンティックブリッジとして利用して、両方のグラフを段階的に統合する、新しい検索/融合パイプラインである。
論文参考訳（メタデータ） (2026-01-14T07:16:11Z)
VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [3.1033038923749774]
視覚情報,音声情報,テキスト情報を網羅する,概念中心の知識集約型マルチモーダル知識グラフを提案する。構築パイプラインは,マルチモーダルデータと細粒度セマンティクスの相互知識アライメントを保証する。本稿では,任意のモダリティからクエリに応答して,概念レベルの詳細な知識を検索する,新しいマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T07:22:57Z)
Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文参考訳（メタデータ） (2025-03-17T09:31:14Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Multimodal Reasoning with Multimodal Knowledge Graph [19.899398342533722]
大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
論文参考訳（メタデータ） (2024-06-04T07:13:23Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。しかし、複数の画像を含む文脈を理解するには不十分である。本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文参考訳（メタデータ） (2024-02-19T14:59:07Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。