論文の概要: What Lies Beneath: A Call for Distribution-based Visual Question & Answer Datasets
- arxiv url: http://arxiv.org/abs/2601.22218v1
- Date: Thu, 29 Jan 2026 19:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.006241
- Title: What Lies Beneath: A Call for Distribution-based Visual Question & Answer Datasets
- Title(参考訳): Lies Beneath: 分散ベースのビジュアル質問&回答データセットのコール
- Authors: Jill P. Naiman, Daniel J. Evans, JooYoung Seo,
- Abstract要約: グラフマークと基礎データとの間に1対1の対応が存在しない科学チャート用の専用VQAベンチマークを議論する。
我々は,地上の真実データに基づいて合成ヒストグラムチャートを作成し,人間と大規模推論モデルの両方に,基礎となるデータへのアクセスに依存する正確な回答を問う。
我々は、フィギュア、基礎となるデータ、データを生成するために使用される分散パラメータ、将来の研究のためにすべてのフィギュアマークとテキストのバウンディングボックスを含む、オープンソースのデータセットをリリースする。
- 参考スコア(独自算出の注目度): 3.1351527202068445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Answering (VQA) has become an important benchmark for assessing how large multimodal models (LMMs) interpret images. However, most VQA datasets focus on real-world images or simple diagrammatic analysis, with few focused on interpreting complex scientific charts. Indeed, many VQA datasets that analyze charts do not contain the underlying data behind those charts or assume a 1-to-1 correspondence between chart marks and underlying data. In reality, charts are transformations (i.e. analysis, simplification, modification) of data. This distinction introduces a reasoning challenge in VQA that the current datasets do not capture. In this paper, we argue for a dedicated VQA benchmark for scientific charts where there is no 1-to-1 correspondence between chart marks and underlying data. To do so, we survey existing VQA datasets and highlight limitations of the current field. We then generate synthetic histogram charts based on ground truth data, and ask both humans and a large reasoning model questions where precise answers depend on access to the underlying data. We release the open-source dataset, including figures, underlying data, distribution parameters used to generate the data, and bounding boxes for all figure marks and text for future research.
- Abstract(参考訳): VQA(Visual Question Answering)は、大規模なマルチモーダルモデル(LMM)がどのように画像を解釈するかを評価する重要なベンチマークとなっている。
しかしながら、ほとんどのVQAデータセットは実世界の画像や単純な図式解析に重点を置いており、複雑な科学的チャートの解釈に重点を置いているものはほとんどない。
実際、チャートを分析する多くのVQAデータセットは、これらのチャートの背後にある基礎データを含んでいない。
実際、チャートはデータの変換(分析、単純化、修正)である。
この区別は、現在のデータセットがキャプチャしないVQAにおいて、推論の課題をもたらす。
本稿では,グラフマークと基礎データとの間に1対1の対応が存在しない科学チャートのための専用VQAベンチマークについて論じる。
そのために、既存のVQAデータセットを調査し、現在のフィールドの制限を強調します。
次に、地上の真実データに基づいて合成ヒストグラムチャートを生成し、人間と大きな推論モデルの両方に、基礎となるデータへのアクセスに依存する正確な答えを問う。
我々は、フィギュア、基礎となるデータ、データを生成するために使用される分散パラメータ、将来の研究のためにすべてのフィギュアマークとテキストのバウンディングボックスを含む、オープンソースのデータセットをリリースする。
関連論文リスト
- In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。
そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。
また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文 参考訳(メタデータ) (2025-07-18T18:15:09Z) - ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering [27.58410749367183]
新しいベンチマークであるChartQAProを紹介した。これは157のさまざまなソースから1,341のチャートを含み、さまざまなチャートタイプにまたがっている。
21モデルによる評価は,ChartQAPro上でのLVLMの性能低下を示す。
論文 参考訳(メタデータ) (2025-04-07T21:05:06Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - RealCQA: Scientific Chart Question Answering as a Test-bed for
First-Order Logic [8.155575318208628]
実世界のグラフ上での視覚的QAのグラフ化のためのベンチマークとデータセットを提案する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた、新しい回答タイプである'list'の導入が含まれています。
実世界のアウト・オブ・ディストリビューション・データセットを用いて行った実験の結果,大規模事前学習モデルのロバストな評価が得られた。
論文 参考訳(メタデータ) (2023-08-03T18:21:38Z) - ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning [7.192233658525916]
9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-19T05:00:30Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。