論文の概要: Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2409.07331v1
- Date: Wed, 11 Sep 2024 15:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:03:35.667512
- Title: Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering
- Title(参考訳): 効率的な知識に基づく視覚的質問応答のための文脈圧縮学習
- Authors: Weixi Weng, Jieming Zhu, Hao Zhang, Xiaojun Meng, Rui Zhang, Chun Yuan,
- Abstract要約: 圧縮文脈(RACC)を用いた検索拡張MLLMを提案する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
RAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
- 参考スコア(独自算出の注目度): 44.54319663913782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated great zero-shot performance on visual question answering (VQA). However, when it comes to knowledge-based VQA (KB-VQA), MLLMs may lack human commonsense or specialized domain knowledge to answer such questions and require obtaining necessary information from external knowledge sources. Previous works like Retrival-Augmented VQA-v2 (RAVQA-v2) focus on utilizing as much input information, such as image-based textual descriptions and retrieved knowledge, as possible to improve performance, but they all overlook the issue that with the number of input tokens increasing, inference efficiency significantly decreases, which contradicts the demands of practical applications. To address this issue, we propose Retrieval-Augmented MLLM with Compressed Contexts (RACC). RACC learns to compress and aggregate retrieved contexts, from which it generates a compact modulation in the form of Key-Value (KV) cache. This modulation is then used to adapt the downstream frozen MLLM, thereby achieving effective and efficient inference. RACC achieves a state-of-the-art (SOTA) performance of 62.9% on OK-VQA. Moreover, it significantly reduces inference latency by 22.0%-59.7% compared to the prominent RAVQA-v2. Abundant experiments show RACC's broad applicability. It is compatible with various off-the-shelf MLLMs and can also handle different knowledge sources including textual and multimodal documents.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,視覚的質問応答(VQA)において,ゼロショットの優れた性能を示す。
しかしながら、知識に基づくVQA(KB-VQA)に関しては、MLLMはそのような質問に答えるために人間の常識や専門的なドメイン知識を欠いている可能性があり、外部の知識ソースから必要な情報を取得する必要がある。
Retrival-Augmented VQA-v2 (RAVQA-v2) のような以前の研究は、画像ベースのテキスト記述や検索された知識などの入力情報を可能な限り活用して性能を向上させることに重点を置いていたが、入力トークンの数が増加し、推論効率が大幅に低下し、実用的な応用の要求に反する問題を見落としている。
本稿では,Retrieval-Augmented MLLM with Compressed Contexts (RACC)を提案する。
RACCは取得したコンテキストの圧縮と集約を学習し、キーバリュー(KV)キャッシュの形式でコンパクトな変調を生成する。
この変調は、下流の凍ったMLLMに適応するために使用され、効果的で効率的な推論を実現する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
さらに、顕著なRAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
冗長な実験は、RACCの幅広い適用性を示している。
市販のMLLMと互換性があり、テキストやマルチモーダル文書など様々な知識ソースを扱える。
関連論文リスト
- mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning [5.053086684547045]
本研究では、ALMの推論能力を高めるために、文脈内学習に基づくアプローチを導入する。
我々のアプローチは、追加の微調整を必要とせずに、解決不可能なシナリオと矛盾するシナリオを特定する精度を高める。
論文 参考訳(メタデータ) (2024-08-08T12:42:43Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2021-12-13T18:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。