論文の概要: Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
- arxiv url: http://arxiv.org/abs/2510.14605v2
- Date: Mon, 20 Oct 2025 07:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.693697
- Title: Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
- Title(参考訳): マルチモーダル処理, 検索, フィルタリングによる知識に基づく視覚的質問応答
- Authors: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye,
- Abstract要約: 知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
本稿では,処理,検索,フィルタリングといった3段階の手法をWiki-PRFと呼ぶ。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が大幅に向上し、最先端のパフォーマンスが達成された。
- 参考スコア(独自算出の注目度): 55.49652734090316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KB-VQA) requires visual language models (VLMs) to integrate visual understanding with external knowledge retrieval. Although retrieval-augmented generation (RAG) achieves significant advances in this task by combining knowledge-base querying, it still struggles with the quality of multimodal queries and the relevance of retrieved results. To overcome these challenges, we propose a novel three-stage method, termed Wiki-PRF, including Processing, Retrieval and Filtering stages. The processing stage dynamically invokes visual tools to extract precise multimodal information for retrieval. The retrieval stage integrates visual and text features to achieve multimodal knowledge retrieval. The filtering stage performs relevance filtering and concentration on retrieval results. To this end, we introduce a visual language model trained with answer accuracy and format consistency as reward signals via a reinforcement learning manner. This enhances the model's reasoning, tool invocation for accurate queries, and filtering of irrelevant content. Experiments on benchmark datasets (E-VQA and InfoSeek) show significant improvements~(36.0 and 42.8) in answer quality, achieving state-of-the-art performance. Code is available at https://github.com/cqu-student/Wiki-PRF
- Abstract(参考訳): 知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
検索強化世代(RAG)は知識ベースクエリーを組み合わせることで、このタスクにおいて大きな進歩を遂げるが、マルチモーダルクエリーの品質と検索結果の関連性に苦慮している。
これらの課題を克服するために,処理,検索,フィルタリングを含む3段階のWiki-PRFを提案する。
処理段階は、視覚ツールを動的に起動し、検索のための精密なマルチモーダル情報を抽出する。
検索段階は、視覚的特徴とテキスト的特徴を統合し、マルチモーダルな知識検索を実現する。
フィルタリングステージは、関連フィルタリングを行い、検索結果に集中する。
そこで本稿では,回答精度と形式整合性を訓練した視覚言語モデルを,強化学習手法による報酬信号として導入する。
これにより、モデルの推論、正確なクエリのためのツール呼び出し、無関係なコンテンツのフィルタリングが強化される。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が~(36.0と42.8)向上し、最先端のパフォーマンスが達成された。
コードはhttps://github.com/cqu-student/Wiki-PRFで入手できる。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。
ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。
The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文 参考訳(メタデータ) (2024-07-17T16:55:42Z) - Object Retrieval for Visual Question Answering with Outside Knowledge [15.749543297423582]
外部知識(OR-OK-VQA)を用いた視覚的質問応答のためのオブジェクト検索タスクを提案する。
このタスクにおける重要な課題は、質問への回答に寄与する多様なオブジェクト関連画像を取得することである。
本稿では,マルチスケールグループ共同埋め込み学習(MS-GCEL)と呼ばれる,教師なしの深層機能埋め込み技術を紹介する。
論文 参考訳(メタデータ) (2024-03-16T04:01:50Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。