論文の概要: Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2409.07331v1
- Date: Wed, 11 Sep 2024 15:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:03:35.667512
- Title: Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering
- Title(参考訳): 効率的な知識に基づく視覚的質問応答のための文脈圧縮学習
- Authors: Weixi Weng, Jieming Zhu, Hao Zhang, Xiaojun Meng, Rui Zhang, Chun Yuan,
- Abstract要約: 圧縮文脈(RACC)を用いた検索拡張MLLMを提案する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
RAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
- 参考スコア(独自算出の注目度): 44.54319663913782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated great zero-shot performance on visual question answering (VQA). However, when it comes to knowledge-based VQA (KB-VQA), MLLMs may lack human commonsense or specialized domain knowledge to answer such questions and require obtaining necessary information from external knowledge sources. Previous works like Retrival-Augmented VQA-v2 (RAVQA-v2) focus on utilizing as much input information, such as image-based textual descriptions and retrieved knowledge, as possible to improve performance, but they all overlook the issue that with the number of input tokens increasing, inference efficiency significantly decreases, which contradicts the demands of practical applications. To address this issue, we propose Retrieval-Augmented MLLM with Compressed Contexts (RACC). RACC learns to compress and aggregate retrieved contexts, from which it generates a compact modulation in the form of Key-Value (KV) cache. This modulation is then used to adapt the downstream frozen MLLM, thereby achieving effective and efficient inference. RACC achieves a state-of-the-art (SOTA) performance of 62.9% on OK-VQA. Moreover, it significantly reduces inference latency by 22.0%-59.7% compared to the prominent RAVQA-v2. Abundant experiments show RACC's broad applicability. It is compatible with various off-the-shelf MLLMs and can also handle different knowledge sources including textual and multimodal documents.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,視覚的質問応答(VQA)において,ゼロショットの優れた性能を示す。
しかしながら、知識に基づくVQA(KB-VQA)に関しては、MLLMはそのような質問に答えるために人間の常識や専門的なドメイン知識を欠いている可能性があり、外部の知識ソースから必要な情報を取得する必要がある。
Retrival-Augmented VQA-v2 (RAVQA-v2) のような以前の研究は、画像ベースのテキスト記述や検索された知識などの入力情報を可能な限り活用して性能を向上させることに重点を置いていたが、入力トークンの数が増加し、推論効率が大幅に低下し、実用的な応用の要求に反する問題を見落としている。
本稿では,Retrieval-Augmented MLLM with Compressed Contexts (RACC)を提案する。
RACCは取得したコンテキストの圧縮と集約を学習し、キーバリュー(KV)キャッシュの形式でコンパクトな変調を生成する。
この変調は、下流の凍ったMLLMに適応するために使用され、効果的で効率的な推論を実現する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
さらに、顕著なRAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
冗長な実験は、RACCの幅広い適用性を示している。
市販のMLLMと互換性があり、テキストやマルチモーダル文書など様々な知識ソースを扱える。
関連論文リスト
- RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z) - Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2021-12-13T18:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。