論文の概要: Question-Focused Filtering for Knowledge-based VQA
- arxiv url: http://arxiv.org/abs/2601.13856v1
- Date: Tue, 20 Jan 2026 11:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.279892
- Title: Question-Focused Filtering for Knowledge-based VQA
- Title(参考訳): 知識に基づくVQAのための質問焦点フィルタリング
- Authors: Wei Ye, Yixin Su, Yueguo Chen, Longxiang Gao, Jianjun Li, Ruixuan Li, Rui Zhang,
- Abstract要約: 知識に基づくビジュアル質問回答(KB-VQA)は、画像と外部知識を統合することで質問に答えることを目的としている。
本稿では,高品質なフィルタリング知識を効率的に得るための質問焦点フィルタリング手法を提案する。
実験の結果,E-VQAでは4.9%,InfoSeekでは3.8%,最先端モデルでは4.9%向上した。
- 参考スコア(独自算出の注目度): 29.963351776935927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KB-VQA) aims to answer questions by integrating images with external knowledge. Effective knowledge filtering is crucial for improving accuracy. Typical filtering methods use similarity metrics to locate relevant article sections from one article, leading to information selection errors at the article and intra-article levels. Although recent explorations of Multimodal Large Language Model (MLLM)-based filtering methods demonstrate superior semantic understanding and cross-article filtering capabilities, their high computational cost limits practical application. To address these issues, this paper proposes a question-focused filtering method. This approach can perform question-focused, cross-article filtering, efficiently obtaining high-quality filtered knowledge while keeping computational costs comparable to typical methods. Specifically, we design a trainable Question-Focused Filter (QFF) and a Chunk-based Dynamic Multi-Article Selection (CDA) module, which collectively alleviate information selection errors at both the article and intra-article levels. Experiments show that our method outperforms current state-of-the-art models by 4.9% on E-VQA and 3.8% on InfoSeek, validating its effectiveness. The code is publicly available at: https://github.com/leaffeall/QKVQA.
- Abstract(参考訳): 知識に基づくビジュアル質問回答(KB-VQA)は、画像と外部知識を統合することで質問に答えることを目的としている。
効果的な知識フィルタリングは精度向上に不可欠である。
典型的なフィルタリング手法では、類似度測定を用いて、ある記事から関連記事のセクションを抽出し、記事とアーティクル内のレベルの情報選択エラーを引き起こす。
近年のマルチモーダル大言語モデル (MLLM) に基づくフィルタリング手法の探索では, セマンティック理解とクロスアーティクルフィルタリング能力が優れているが, 計算コストが高いため, 実用的な応用が可能である。
これらの問題に対処するため,本論文では質問に焦点をあてるフィルタリング手法を提案する。
このアプローチは質問に焦点をあてたクロスアーティクルフィルタリングを行い、典型的な手法に匹敵する計算コストを維持しながら、高品質なフィルタリング知識を効率的に得ることができる。
具体的には、トレーニング可能なQFF(Qoff-Focused Filter)と、Chunkベースの動的多要素選択(Dynamic Multi-Article Selection, CDA)モジュールを設計する。
実験の結果,E-VQAが4.9%,InfoSeekが3.8%,その妥当性が検証された。
コードは、https://github.com/leaffeall/QKVQA.comで公開されている。
関連論文リスト
- Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering [55.49652734090316]
知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
本稿では,処理,検索,フィルタリングといった3段階の手法をWiki-PRFと呼ぶ。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が大幅に向上し、最先端のパフォーマンスが達成された。
論文 参考訳(メタデータ) (2025-10-16T12:10:00Z) - BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering [58.403898834018285]
BlendFilterは、知識フィルタリングと組み合わせたクエリ生成を統合することで、検索強化された大規模言語モデルを高める新しいアプローチである。
我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-16T23:28:02Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Filter Pruning based on Information Capacity and Independence [11.411996979581295]
本稿では,フィルタを解釈可能,マルチパースペクティブ,軽量な方法で選択する新しいフィルタプルーニング手法を提案する。
各フィルタに含まれる情報量について,情報容量と呼ばれる新しい指標を提案する。
フィルタ間の相関について、情報独立と呼ばれる別の指標が設計されている。
論文 参考訳(メタデータ) (2023-03-07T04:26:44Z) - A Critical Analysis of Classifier Selection in Learned Bloom Filters [0.3359875577705538]
フィルタ構築に使用されるデータの"複雑さ"は、そのパフォーマンスに大きく影響する可能性がある。
本稿では,学習ブルームフィルタの設計,解析,実装のための新しい手法を提案する。
提案手法とサポートソフトウェアは有効かつ有用であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-11-28T17:17:18Z) - Quantile Filtered Imitation Learning [49.11859771578969]
量子フィルタ模倣学習(QFIL)は、オフライン強化学習用に設計されたポリシー改善演算子である。
我々はQFILが機能近似による安全なポリシー改善のステップを提供することを証明した。
QFILはD4RLベンチマークでよく機能します。
論文 参考訳(メタデータ) (2021-12-02T03:08:23Z) - Sequence-Based Filtering for Visual Route-Based Navigation: Analysing
the Benefits, Trade-offs and Design Choices [17.48671856442762]
ビジュアルプレース認識(VPR)の新たなトレンドは、単一フレームベースのプレースマッチング技術の上にシーケンスベースのフィルタリング方法を使用することである。
本稿では,単一フレームに基づく位置マッチング手法の性能と,それらの手法上でのシーケンスベースフィルタリングの利用との関係について詳細に検討する。
論文 参考訳(メタデータ) (2021-03-02T19:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。