論文の概要: DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams
- arxiv url: http://arxiv.org/abs/2604.25231v1
- Date: Tue, 28 Apr 2026 05:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.721918
- Title: DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams
- Title(参考訳): DRAGON: ダイアグラム上のエビデンスを取り巻くビジュアル推論のベンチマーク
- Authors: Anirudh Iyengar Kaniyar Narayana Iyengar, Tampu Ravi Kumar, Gaurav Najpande, Manan Suri, Dinesh Manocha, Puneet Mathur, Vivek Gupta,
- Abstract要約: ダイアグラムにおけるエビデンスグラウンドの視覚的推論を評価するためのベンチマークであるDRAGONを紹介する。
ダイアグラム、質問、そして正しい答えが与えられた場合、モデルは答えを正当化するために必要な視覚的要素に対応する境界ボックスを予測する必要がある。
DRAGONデータセットには、6つの図QAデータセットから収集された11,664の注釈付き質問インスタンスが含まれている。
- 参考スコア(独自算出の注目度): 54.39165467997251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagram question answering (DQA) requires models to interpret structured visual representations such as charts, maps, infographics, circuit schematics, and scientific diagrams. Recent vision-language models (VLMs) often achieve high answer accuracy on these tasks, yet correct answers do not guarantee that models ground their reasoning in the diagram regions that support the prediction. Models may instead rely on textual correlations or dataset artifacts without identifying the visual evidence required to verify the answer. This limitation prevents reliable evaluation of diagram reasoning and reduces interpretability. We introduce DRAGON, a benchmark for evaluating evidence-grounded visual reasoning in diagrams. Given a diagram, a question, and the correct answer, a model must predict bounding boxes that correspond to the visual elements required to justify the answer. These evidence regions may include answer-bearing components, textual labels, legends, axes, connectors, and other supporting structures involved in the reasoning process. The DRAGON dataset contains 11,664 annotated question instances collected from six diagram QA datasets: ChartQA, Circuit-VQA, InfographicsVQA, MapIQ, MapWise, and AI2D. We release a 2,445-instance benchmark test set with human-verified reasoning evidence annotations and a standardized evaluation framework. We evaluate eight recent VLMs and analyze their ability to localize reasoning evidence across diverse diagram domains. DRAGON enables systematic evaluation of diagram reasoning and supports future research on models that ground their predictions in visual evidence.
- Abstract(参考訳): ダイアグラム質問応答(DQA)は、チャート、地図、インフォグラフィック、回路図、科学図のような構造化された視覚表現を解釈するモデルを必要とする。
最近の視覚言語モデル(VLM)は、これらのタスクに対して高い解答精度を達成することが多いが、正しい答えは、予測をサポートするダイアグラム領域において、モデルが推論を根拠にしていることを保証するものではない。
モデルは代わりに、答えを検証するのに必要な視覚的証拠を特定することなく、テキストの相関やデータセットのアーティファクトに依存する。
この制限はダイアグラム推論の信頼性評価を防ぎ、解釈可能性を低減する。
ダイアグラムにおけるエビデンスグラウンドの視覚的推論を評価するためのベンチマークであるDRAGONを紹介する。
ダイアグラム、質問、そして正しい答えが与えられた場合、モデルは答えを正当化するために必要な視覚的要素に対応する境界ボックスを予測する必要がある。
これらのエビデンス領域には、答えを持つコンポーネント、テキストラベル、伝説、軸、コネクタ、その他の推論プロセスに関連するサポート構造が含まれる。
DRAGONデータセットには、ChartQA、Circuit-VQA、InfographicsVQA、MapIQ、MapWise、AI2Dの6つの図QAデータセットから収集された11,664の注釈付き質問インスタンスが含まれている。
人間の検証された推論のエビデンスアノテーションと標準化された評価フレームワークを備えた2,445-instanceベンチマークセットをリリースする。
我々は,近年の8つのVLMを評価し,様々な図形領域にまたがる論理的証拠をローカライズする能力を解析した。
DRAGONはダイアグラム推論の体系的な評価を可能にし、その予測を視覚的証拠に基礎づけるモデルに関する将来の研究を支援する。
関連論文リスト
- RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - RealCQA: Scientific Chart Question Answering as a Test-bed for
First-Order Logic [8.155575318208628]
実世界のグラフ上での視覚的QAのグラフ化のためのベンチマークとデータセットを提案する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた、新しい回答タイプである'list'の導入が含まれています。
実世界のアウト・オブ・ディストリビューション・データセットを用いて行った実験の結果,大規模事前学習モデルのロバストな評価が得られた。
論文 参考訳(メタデータ) (2023-08-03T18:21:38Z) - ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning [7.192233658525916]
9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-19T05:00:30Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - ExplaGraphs: An Explanation Graph Generation Task for Structured
Commonsense Reasoning [65.15423587105472]
スタンス予測のための説明グラフ生成の新しい生成および構造化コモンセンスリゾニングタスク(および関連するデータセット)を紹介します。
具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。
グラフの83%は、様々な構造と推論深度を持つ外部のコモンセンスノードを含んでいる。
論文 参考訳(メタデータ) (2021-04-15T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。