論文の概要: DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA
- arxiv url: http://arxiv.org/abs/2605.00905v1
- Date: Wed, 29 Apr 2026 02:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.470098
- Title: DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA
- Title(参考訳): DIAGRAMS: ダイアグラムQAにおけるReasoning-Level属性のレビューフレームワーク
- Authors: Anirudh Iyengar Kaniyar Narayana Iyengar, Tampu Ravi Kumar, Manan Suri, Raviteja Bommireddy, Dinesh Manocha, Puneet Mathur, Vivek Gupta,
- Abstract要約: ダイアグラム質問応答(ダイアグラムQA)は、各問合せ対を答えを導き出すために必要なすべての視覚領域にリンクする推論レベルの属性を必要とする。
私たちは、データセット固有の構造からインターフェースロジックを分離する軽量でスキーマ駆動のレビューフレームワークであるDIAGRAMSを紹介します。
- 参考スコア(独自算出の注目度): 56.73431446011309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagram question answering (Diagram QA) requires reasoning-level attribution that links each question-answer pair to all visual regions needed to derive the answer, rather than only the region containing the final response. Creating such structured evidence across diagrams, charts, maps, circuits, and infographics is time-consuming, and existing annotation tools tightly couple their interfaces to dataset-specific formats. We present DIAGRAMS, a lightweight, schema-driven review framework that decouples interface logic from dataset-specific JSON structures through an internal meta-schema and dataset adapters. Given an image and QA pair with optional candidate regions, the system performs QA-conditioned evidence selection and proposes the regions required for reasoning. When QA pairs or candidate regions are missing, it generates them and supports human verification and refinement. Across six Diagram QA datasets, model-suggested evidence achieves 85.39% precision and 75.30% recall against reviewer-final selections (micro-averaged). These results indicate that the review-first framework reduces manual region creation while maintaining high agreement with final reasoning-level attributions. We release a public demo and installable package to support dataset auditing, grounded supervision creation, and grounded evaluation.
- Abstract(参考訳): ダイアグラム質問応答(ダイアグラムQA)は、最終応答を含む領域だけでなく、各問合せ対を答えを導き出すために必要なすべての視覚領域にリンクする推論レベルの属性を必要とする。
図、チャート、マップ、サーキット、インフォグラフィックにまたがってそのような構造化されたエビデンスを作成するのに時間がかかり、既存のアノテーションツールは、インターフェースをデータセット固有のフォーマットに密に結合する。
内部メタスキーマとデータセットアダプタを通じて、データセット固有のJSON構造からインターフェースロジックを分離する、軽量でスキーマ駆動のレビューフレームワークであるDIAGRAMSを紹介します。
任意の候補領域と画像とQAペアが与えられた場合、システムはQA条件付きエビデンス選択を行い、推論に必要な領域を提案する。
QAペアや候補領域が欠落すると、それを生成し、人間の検証と改善をサポートする。
6つのダイアグラムQAデータセット全体で、モデル推奨の証拠は85.39%の精度と75.30%のリコールをレビュアー-ファイナルセレクションに対して達成している。
これらの結果は、レビューファーストフレームワークが最終的な推論レベルの属性との高い一致を維持しながら、手動の領域作成を減らすことを示唆している。
私たちは、データセットの監査、接地された監督作成、接地された評価をサポートする公開デモとインストール可能なパッケージをリリースしました。
関連論文リスト
- DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams [54.39165467997251]
ダイアグラムにおけるエビデンスグラウンドの視覚的推論を評価するためのベンチマークであるDRAGONを紹介する。
ダイアグラム、質問、そして正しい答えが与えられた場合、モデルは答えを正当化するために必要な視覚的要素に対応する境界ボックスを予測する必要がある。
DRAGONデータセットには、6つの図QAデータセットから収集された11,664の注釈付き質問インスタンスが含まれている。
論文 参考訳(メタデータ) (2026-04-28T05:24:05Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - OpenCQA: Open-ended Question Answering with Charts [6.7038829115674945]
我々はOpenCQAと呼ばれる新しいタスクを導入し、そこではグラフに関するオープンな質問にテキストで答えることが目的である。
3つの実践的な設定の下で,一連のベースラインを実装し,評価する。
結果から,トップパフォーマンスモデルは通常,流動的かつコヒーレントなテキストを生成することが示された。
論文 参考訳(メタデータ) (2022-10-12T23:37:30Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。