論文の概要: VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.19899v2
- Date: Mon, 01 Dec 2025 02:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.320648
- Title: VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering
- Title(参考訳): VeriSciQA:科学的な視覚的質問応答のための自動検証データセット
- Authors: Yuyi Li, Daoyuan Chen, Zhen Wang, Yutong Lu, Yaliang Li,
- Abstract要約: 重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。
本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。
このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
- 参考スコア(独自算出の注目度): 53.662676566188175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) show promise for scientific applications, yet open-source models still struggle with Scientific Visual Question Answering (SVQA), namely answering questions about figures from scientific papers. A key bottleneck lies in the lack of public, large-scale, high-quality SVQA datasets. Although recent work uses LVLMs to synthesize data at scale, we identify systematic errors in their resulting QA pairs, stemming from LVLMs' inherent limitations and information asymmetry between figures and text. To address these challenges, we propose a verification-centric Generate-then-Verify framework that first generates QA pairs with figure-associated textual context, then applies cross-modal consistency checks against figures along with auxiliary filters to eliminate erroneous pairs. We instantiate this framework to curate VeriSciQA, a dataset of 20,351 QA pairs spanning 20 scientific domains and 12 figure types. VeriSciQA poses a challenging benchmark for open-source models, with a substantial accuracy gap between the leading open-source models (64%) and a proprietary model (82%). Moreover, models fine-tuned on VeriSciQA achieve consistent improvements on SVQA benchmarks, with performance gains that scale with data size and surpass models trained on existing datasets. Human evaluation further validates the superior correctness of VeriSciQA. Together, these evidences demonstrate that continued data expansion by our scalable framework can further advance SVQA capability in the open-source community.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は科学的な応用を約束するが、オープンソースモデルは科学的なビジュアル質問回答(SVQA)に苦戦している。
重要なボトルネックは、パブリック、大規模、高品質なSVQAデータセットの欠如にある。
最近の研究では、LVLMを用いてデータを大規模に合成するが、LVLMs固有の制限と図形とテキスト間の情報非対称性から、結果のQAペアにおける体系的な誤りを識別する。
これらの課題に対処するために,まず図形関連テキストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。
このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
VeriSciQAは、主要なオープンソースモデル(64%)とプロプライエタリモデル(82%)の間に相当な精度のギャップがある、オープンソースモデルのための挑戦的なベンチマークを提供する。
さらに、VeriSciQAで微調整されたモデルは、SVQAベンチマークで一貫した改善を実現している。
人間の評価は、VeriSciQAの優れた正しさをさらに検証する。
これらの証拠は、我々のスケーラブルなフレームワークによる継続的なデータ拡張が、オープンソースコミュニティにおけるSVQA能力をさらに前進させることができることを示している。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。