論文の概要: UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training
- arxiv url: http://arxiv.org/abs/2504.04065v1
- Date: Sat, 05 Apr 2025 05:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:23.630821
- Title: UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training
- Title(参考訳): UniRVQA: 自己反射型共同学習による検索型視覚質問応答のための統一フレームワーク
- Authors: Jiaqi Deng, Kaize Shi, Zonghan Wu, Huan Huo, Dingxian Wang, Guandong Xu,
- Abstract要約: 知識集約型視覚質問のための統一検索型VQAフレームワーク(UniRVQA)を提案する。
UniRVQAは、統一されたフレームワーク内でのきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前訓練モデルを適用する。
提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
- 参考スコア(独自算出の注目度): 16.14877145354785
- License:
- Abstract: Knowledge-based Vision Question Answering (KB-VQA) systems address complex visual-grounded questions requiring external knowledge, such as web-sourced encyclopedia articles. Existing methods often use sequential and separate frameworks for the retriever and the generator with limited parametric knowledge sharing. However, since both retrieval and generation tasks require accurate understanding of contextual and external information, such separation can potentially lead to suboptimal system performance. Another key challenge is the integration of multimodal information. General-purpose multimodal pre-trained models, while adept at multimodal representation learning, struggle with fine-grained retrieval required for knowledge-intensive visual questions. Recent specialized pre-trained models mitigate the issue, but are computationally expensive. To bridge the gap, we propose a Unified Retrieval-Augmented VQA framework (UniRVQA). UniRVQA adapts general multimodal pre-trained models for fine-grained knowledge-intensive tasks within a unified framework, enabling cross-task parametric knowledge sharing and the extension of existing multimodal representation learning capability. We further introduce a reflective-answering mechanism that allows the model to explicitly evaluate and refine its knowledge boundary. Additionally, we integrate late interaction into the retrieval-augmented generation joint training process to enhance fine-grained understanding of queries and documents. Our approach achieves competitive performance against state-of-the-art models, delivering a significant 4.7% improvement in answering accuracy, and brings an average 7.5% boost in base MLLMs' VQA performance.
- Abstract(参考訳): 知識に基づく視覚質問回答システム(KB-VQA)は、Webソースの百科事典のような外部の知識を必要とする複雑な視覚的な疑問に対処する。
既存の手法では、レトリバーとパラメトリック知識の共有が制限されたジェネレータに対して、シーケンシャルなフレームワークと分離されたフレームワークを使用することが多い。
しかし、検索タスクと生成タスクの両方が文脈情報と外部情報の正確な理解を必要とするため、そのような分離はシステム性能の最適化につながる可能性がある。
もう一つの重要な課題は、マルチモーダル情報の統合である。
汎用マルチモーダル事前学習モデルは、多モーダル表現学習に長けながら、知識集約的な視覚的質問に必要なきめ細かい検索に苦慮する。
最近の専門的な事前訓練モデルはこの問題を緩和するが、計算上は高価である。
このギャップを埋めるため,Unified Retrieval-Augmented VQA framework (UniRVQA)を提案する。
UniRVQAは、統合されたフレームワーク内のきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前学習モデルを適用し、クロスタスクなパラメトリックな知識共有と既存のマルチモーダル表現学習能力の拡張を可能にする。
さらに、モデルが知識境界を明示的に評価し、洗練できるようにする反射探索機構を導入する。
さらに,クエリやドキュメントの詳細な理解を深めるため,検索強化型共同学習プロセスに遅延インタラクションを統合した。
提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
関連論文リスト
- Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering [16.52970318866536]
本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-28T18:06:40Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Retrieval Augmented Visual Question Answering with Outside Knowledge [14.371342370460685]
Outside-Knowledge Visual Question Answering (OK-VQA)は、画像に関する質問に答えるために外部知識の検索を必要とする難しいVQAタスクである。
最近のOK-VQAシステムでは、Dense Passage Retrieval (DPR) を使用して、ウィキペディアのような外部知識ベースから文書を検索するが、回答生成とは別々に訓練されている。
本稿では,対話型DPRと解答生成を統合した共同学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T20:35:58Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。