論文の概要: MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2602.15915v1
- Date: Tue, 17 Feb 2026 04:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.390485
- Title: MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering
- Title(参考訳): MaS-VQA:知識に基づく視覚的質問応答のためのマスク・アンド・セレクトフレームワーク
- Authors: Xianwei Mao, Kai Ye, Sheng Zhou, Nan Zhang, Haikuan Huang, Bin Li, Jiajun Bu,
- Abstract要約: 知識に基づく視覚質問回答(KB-VQA)は、視覚情報と外部知識を統合することで質問に答えるモデルを必要とする。
本稿では,明示的な知識フィルタリングと暗黙的な知識推論を密結合する選択駆動型フレームワークMaS-VQAを提案する。
Encyclopedic-VQAとInfoSeekの実験では、複数のMLLMバックボーンで一貫したパフォーマンス向上が示されている。
- 参考スコア(独自算出の注目度): 23.14938510901464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KB-VQA) requires models to answer questions by integrating visual information with external knowledge. However, retrieved knowledge is often noisy, partially irrelevant, or misaligned with the visual content, while internal model knowledge is difficult to control and interpret. Naive aggregation of these sources limits reasoning effectiveness and reduces answer accuracy. To address this, we propose MaS-VQA, a selection-driven framework that tightly couples explicit knowledge filtering with implicit knowledge reasoning. MaS-VQA first retrieves candidate passages and applies a Mask-and-Select mechanism to jointly prune irrelevant image regions and weakly relevant knowledge fragments, producing compact, high-signal multimodal knowledge . This filtered knowledge then guides the activation of internal knowledge in a constrained semantic space, enabling complementary co-modeling of explicit and implicit knowledge for robust answer prediction. Experiments on Encyclopedic-VQA and InfoSeek demonstrate consistent performance gains across multiple MLLM backbones, and ablations verify that the selection mechanism effectively reduces noise and enhances knowledge utilization.
- Abstract(参考訳): 知識に基づく視覚質問回答(KB-VQA)は、視覚情報と外部知識を統合することで質問に答えるモデルを必要とする。
しかし、検索された知識は、しばしばうるさい、部分的に無関係、あるいは視覚的内容と不一致である一方、内部モデル知識は制御し解釈することが難しい。
これらのソースのナイーブアグリゲーションは推論の有効性を制限し、回答の精度を低下させる。
そこで我々は,明示的な知識フィルタリングと暗黙的な知識推論を密結合する選択駆動型フレームワークMaS-VQAを提案する。
MaS-VQAはまず候補経路を検索し、Mask-and-Selectメカニズムを適用して、無関係な画像領域と弱関連な知識フラグメントを共同でプーンし、コンパクトで高信号のマルチモーダルな知識を生成する。
このフィルタリングされた知識は、制約付きセマンティック空間における内部知識の活性化を誘導し、頑健な答え予測のために明示的で暗黙的な知識の補的共モデリングを可能にする。
Encyclopedic-VQAとInfoSeekの実験は、複数のMLLMバックボーンで一貫した性能向上を示し、選択機構がノイズを効果的に低減し、知識利用を向上させることを検証する。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering [55.368681418311894]
既存の知識に基づくビジュアル質問回答 (KBVQA) 手法は、マルチモーダルな大規模言語モデル (MLLM) における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。
KEPO(Knowledge Encouragement Preference Optimization)を用いたHindsight Distilled Reasoning(HinD)フレームワークを提供する。
OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-14T10:03:23Z) - A Knowledge Noise Mitigation Framework for Knowledge-based Visual Question Answering [14.08940185497287]
知識に基づく視覚的質問応答(KB-VQA)は、画像を理解し、正確な答えを提供するために外部知識を利用するモデルを必要とする。
既存のアプローチは、しばしば知識ソースから取得した情報でモデルを直接拡張する。
本稿では,KB-VQAの知識に着目した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-11T05:40:26Z) - Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models [51.47994645529258]
本稿では,問合せをGNNアグリゲーションに組み込んでKG関連性を動的に評価するQAP(QA-Aware Knowledge Graph Prompting)を提案する。
実験の結果、QAPは複数のデータセットで最先端の手法よりも優れており、その有効性を強調している。
論文 参考訳(メタデータ) (2025-03-30T17:09:11Z) - Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
まず,マルチモーダルデータ断片からなるきめ細かい知識ユニットを紹介する。
第2に,細粒度検索をMLLMとシームレスに統合する知識単位検索拡張生成フレームワーク(KU-RAG)を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。
DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。
本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:44:20Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Coarse-to-Careful: Seeking Semantic-related Knowledge for Open-domain
Commonsense Question Answering [12.406729445165857]
背景コモンセンスを必要とする質問に機械が答えるのを助けるために、外部知識を利用するのが一般的である。
本稿では,知識注入を粗大から粗大に制御する意味駆動型知識認識型QAフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T10:56:36Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。