論文の概要: Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
- arxiv url: http://arxiv.org/abs/2510.14605v1
- Date: Thu, 16 Oct 2025 12:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.842989
- Title: Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
- Title(参考訳): マルチモーダル処理, 検索, フィルタリングによる知識に基づく視覚的質問応答
- Authors: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye,
- Abstract要約: 知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
本稿では,処理,検索,フィルタリングといった3段階の手法をWiki-PRFと呼ぶ。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が大幅に向上し、最先端のパフォーマンスが達成された。
- 参考スコア(独自算出の注目度): 55.49652734090316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF
- Abstract(参考訳): 知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
検索強化世代(RAG)は知識ベースクエリーを組み合わせることで、このタスクにおいて大きな進歩を遂げるが、マルチモーダルクエリーの品質と検索結果の関連性に苦慮している。
これらの課題を克服するために,処理,検索,フィルタリングを含む3段階のWiki-PRFを提案する。
処理段階は、視覚ツールを動的に起動し、検索のための精密なマルチモーダル情報を抽出する。
検索段階は、視覚的特徴とテキスト的特徴を統合し、マルチモーダルな知識検索を実現する。
フィルタリングステージは、関連フィルタリングを行い、検索結果に集中する。
そこで本稿では,回答精度と形式整合性を訓練した視覚言語モデルを,強化学習手法による報酬信号として導入する。
これにより、モデルの推論、正確なクエリのためのツール呼び出し、無関係なコンテンツのフィルタリングが強化される。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が~(36.0と42.8)向上し、最先端のパフォーマンスが達成された。
コードはhttps://github.com/cqu-student/Wiki-PRFで入手できる。
関連論文リスト
- Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。
ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。
The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文 参考訳(メタデータ) (2024-07-17T16:55:42Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。