Fugu-MT 論文翻訳(概要): Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

論文の概要: Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

arxiv url: http://arxiv.org/abs/2603.05256v1
Date: Thu, 05 Mar 2026 15:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.285908
Title: Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum
Title（参考訳）: Wiki-R1:データとサンプリングカリキュラムによる知識に基づくVQAのためのマルチモーダル推論のインセンティブ化
Authors: Shan Ning, Longtian Qiu, Xuming He,
Abstract要約: 知識に基づくビジュアル質問回答(KB-VQA)は、外部知識を統合することにより、画像に関する質問に答えるモデルを必要とする。データ生成に基づくカリキュラム強化学習フレームワークである textitWiki-R1 を提案する。 Encyclopedic VQAとInfoSeekの2つのKB-VQAベンチマークの実験は、Wiki-R1が新しい最先端の結果を達成することを示した。
参考スコア（独自算出の注目度）: 19.69940315540221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge-Based Visual Question Answering (KB-VQA) requires models to answer questions about an image by integrating external knowledge, posing significant challenges due to noisy retrieval and the structured, encyclopedic nature of the knowledge base. These characteristics create a distributional gap from pretrained multimodal large language models (MLLMs), making effective reasoning and domain adaptation difficult in the post-training stage. In this work, we propose \textit{Wiki-R1}, a data-generation-based curriculum reinforcement learning framework that systematically incentivizes reasoning in MLLMs for KB-VQA. Wiki-R1 constructs a sequence of training distributions aligned with the model's evolving capability, bridging the gap from pretraining to the KB-VQA target distribution. We introduce \textit{controllable curriculum data generation}, which manipulates the retriever to produce samples at desired difficulty levels, and a \textit{curriculum sampling strategy} that selects informative samples likely to yield non-zero advantages during RL updates. Sample difficulty is estimated using observed rewards and propagated to unobserved samples to guide learning. Experiments on two KB-VQA benchmarks, Encyclopedic VQA and InfoSeek, demonstrate that Wiki-R1 achieves new state-of-the-art results, improving accuracy from 35.5\% to 37.1\% on Encyclopedic VQA and from 40.1\% to 44.1\% on InfoSeek. The project page is available at https://artanic30.github.io/project_pages/WikiR1/.
Abstract（参考訳）: KB-VQA (Knowledge-Based Visual Question Answering) は、外部知識を統合することにより、画像に関する疑問に答えるモデルを必要とする。これらの特徴は、事前学習されたマルチモーダル言語モデル(MLLM)から分布ギャップを生じさせ、学習後の段階で効果的な推論とドメイン適応を困難にする。本研究では,KB-VQA に対するMLLM の推論を体系的に動機づけるデータ生成型カリキュラム強化学習フレームワークである \textit{Wiki-R1} を提案する。 Wiki-R1はモデルの進化能力に合わせた一連のトレーニングディストリビューションを構築し、プレトレーニングからKB-VQAターゲットディストリビューションへのギャップを埋める。本稿では,検索器を操作して所望の難易度でサンプルを生成する「textit{controllable curriculum data generation」と,RL更新時に非ゼロアドバンテージをもたらす可能性のある情報的サンプルを選択する「textit{curriculum sample strategy」を紹介する。サンプルの難易度は、観察された報酬を用いて推定され、学習のガイドとなる未観測サンプルに伝播される。 Encyclopedic VQAとInfoSeekの2つのKB-VQAベンチマークの実験では、Wiki-R1が新しい最先端の結果を達成し、 Encyclopedic VQAでは35.5\%から37.1\%、InfoSeekでは40.1\%から44.1\%に精度が向上した。プロジェクトページはhttps://artanic30.github.io/project_pages/WikiR1/で公開されている。

関連論文リスト

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。 LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文参考訳（メタデータ） (2025-07-18T12:28:08Z)
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance [0.9208007322096533]
知識に基づく視覚質問回答法(KB-VQA)は、画像に表される明示的なコンテンツを超えて、情報によって推論を要求するタスクに焦点を当てる。近年のアプローチでは,Large Language Models (LLM) を暗黙の知識源として活用している。グラウンディングキャプション誘導知識に基づく視覚質問応答(GC-KBVQA)と呼ばれる新しい4段階のフレームワークを紹介する。イノベーションには、ジェネリックな記述を超えて、コンパクトで詳細でコンテキストに富んだ情報を持つために、質問認識キャプションを生成することが含まれる。
論文参考訳（メタデータ） (2025-05-25T23:00:30Z)
Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。まず,マルチモーダルデータ断片からなるきめ細かい知識ユニットを紹介する。第2に,細粒度検索をMLLMとシームレスに統合する知識単位検索拡張生成フレームワーク(KU-RAG)を提案する。
論文参考訳（メタデータ） (2025-02-28T11:25:38Z)
Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いたtextbfRetrieval-textbfAugmented MLLMを提案する。 RACCは、与えられた画像検索ペアの取得した知識を圧縮して集約することを学ぶ。これはOK-VQAで63.92%の最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2024-09-11T15:11:39Z)
Few-shot Transfer Learning for Knowledge Base Question Answering: Fusing Supervised Models with In-Context Learning [20.80841972133938]
既存の知識ベース質問回答(KBQA)アーキテクチャは、注釈付きデータに飢えている。 KBQAでは,対象ドメインがラベル付きサンプルを少数提供している。本稿では,複数のソース学習型検索器を用いてKB検索を行う新しいKBQAアーキテクチャFuSIC-KBQAを提案する。
論文参考訳（メタデータ） (2023-11-15T11:56:56Z)
Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。 KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文参考訳（メタデータ） (2023-10-12T09:12:50Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)
Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。 BERTベースのKBQAモデルを提案する。データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文参考訳（メタデータ） (2020-11-16T06:36:26Z)
Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2020-04-24T17:57:45Z)
Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文参考訳（メタデータ） (2020-02-27T03:07:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。