Fugu-MT 論文翻訳(概要): Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering

論文の概要: Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering

arxiv url: http://arxiv.org/abs/2409.07331v1
Date: Wed, 11 Sep 2024 15:11:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 14:03:35.667512
Title: Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering
Title（参考訳）: 効率的な知識に基づく視覚的質問応答のための文脈圧縮学習
Authors: Weixi Weng, Jieming Zhu, Hao Zhang, Xiaojun Meng, Rui Zhang, Chun Yuan,
Abstract要約: 圧縮文脈(RACC)を用いた検索拡張MLLMを提案する。 RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。 RAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
参考スコア（独自算出の注目度）: 44.54319663913782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated great zero-shot performance on visual question answering (VQA). However, when it comes to knowledge-based VQA (KB-VQA), MLLMs may lack human commonsense or specialized domain knowledge to answer such questions and require obtaining necessary information from external knowledge sources. Previous works like Retrival-Augmented VQA-v2 (RAVQA-v2) focus on utilizing as much input information, such as image-based textual descriptions and retrieved knowledge, as possible to improve performance, but they all overlook the issue that with the number of input tokens increasing, inference efficiency significantly decreases, which contradicts the demands of practical applications. To address this issue, we propose Retrieval-Augmented MLLM with Compressed Contexts (RACC). RACC learns to compress and aggregate retrieved contexts, from which it generates a compact modulation in the form of Key-Value (KV) cache. This modulation is then used to adapt the downstream frozen MLLM, thereby achieving effective and efficient inference. RACC achieves a state-of-the-art (SOTA) performance of 62.9% on OK-VQA. Moreover, it significantly reduces inference latency by 22.0%-59.7% compared to the prominent RAVQA-v2. Abundant experiments show RACC's broad applicability. It is compatible with various off-the-shelf MLLMs and can also handle different knowledge sources including textual and multimodal documents.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は,視覚的質問応答(VQA)において,ゼロショットの優れた性能を示す。しかしながら、知識に基づくVQA(KB-VQA)に関しては、MLLMはそのような質問に答えるために人間の常識や専門的なドメイン知識を欠いている可能性があり、外部の知識ソースから必要な情報を取得する必要がある。 Retrival-Augmented VQA-v2 (RAVQA-v2) のような以前の研究は、画像ベースのテキスト記述や検索された知識などの入力情報を可能な限り活用して性能を向上させることに重点を置いていたが、入力トークンの数が増加し、推論効率が大幅に低下し、実用的な応用の要求に反する問題を見落としている。本稿では,Retrieval-Augmented MLLM with Compressed Contexts (RACC)を提案する。 RACCは取得したコンテキストの圧縮と集約を学習し、キーバリュー(KV)キャッシュの形式でコンパクトな変調を生成する。この変調は、下流の凍ったMLLMに適応するために使用され、効果的で効率的な推論を実現する。 RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。さらに、顕著なRAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。冗長な実験は、RACCの幅広い適用性を示している。市販のMLLMと互換性があり、テキストやマルチモーダル文書など様々な知識ソースを扱える。

関連論文リスト

UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training [16.14877145354785]
知識集約型視覚質問のための統一検索型VQAフレームワーク(UniRVQA)を提案する。 UniRVQAは、統一されたフレームワーク内でのきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前訓練モデルを適用する。提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
論文参考訳（メタデータ） (2025-04-05T05:42:12Z)
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。 QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文参考訳（メタデータ） (2025-03-11T17:59:57Z)
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
論文参考訳（メタデータ） (2025-02-28T11:25:38Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。 mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文参考訳（メタデータ） (2024-11-22T16:15:50Z)
Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning [5.053086684547045]
本研究では、ALMの推論能力を高めるために、文脈内学習に基づくアプローチを導入する。我々のアプローチは、追加の微調整を必要とせずに、解決不可能なシナリオと矛盾するシナリオを特定する精度を高める。
論文参考訳（メタデータ） (2024-08-08T12:42:43Z)
RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文参考訳（メタデータ） (2024-06-27T13:08:35Z)
CuriousLLM: Elevating Multi-Document Question Answering with LLM-Enhanced Knowledge Graph Reasoning [0.9295048974480845]
我々は、好奇心駆動推論機構をLLMエージェントに統合する拡張であるCuriousLLMを提案する。この機構により、エージェントは関連するフォローアップ質問を生成し、情報検索プロセスをより効率的に導くことができる。実験の結果,CuriousLLMは多文書質問応答(MD-QA)におけるLLM性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-04-13T20:43:46Z)
Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文参考訳（メタデータ） (2023-12-20T02:35:18Z)
Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-11-03T14:39:20Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)
Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文参考訳（メタデータ） (2023-09-29T10:54:10Z)
Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-25T09:23:55Z)
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文参考訳（メタデータ） (2022-01-25T22:30:54Z)
Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文参考訳（メタデータ） (2021-12-13T18:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。