論文の概要: ClimateViz: A Benchmark for Statistical Reasoning and Fact Verification on Scientific Charts
- arxiv url: http://arxiv.org/abs/2506.08700v2
- Date: Wed, 11 Jun 2025 09:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.741268
- Title: ClimateViz: A Benchmark for Statistical Reasoning and Fact Verification on Scientific Charts
- Title(参考訳): ClimateViz: 統計的推論と科学的チャートのファクト検証のためのベンチマーク
- Authors: Ruiran Su, Jiasheng Si, Zhijiang Guo, Janet B. Pierrehumbert,
- Abstract要約: 専門家による科学的グラフを用いた科学的事実チェックのための,最初の大規模ベンチマークであるClimateVizを紹介する。
ClimateVizには2,896件のビジュアライゼーションに関連する49,862件のクレームが含まれている。
我々は、プロプライエタリシステムとオープンソースシステムの両方を含む最先端のマルチモーダル言語モデルをゼロショットおよび少数ショット設定で評価する。
- 参考スコア(独自算出の注目度): 20.064316505730808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific fact-checking has mostly focused on text and tables, overlooking scientific charts, which are key for presenting quantitative evidence and statistical reasoning. We introduce ClimateViz, the first large-scale benchmark for scientific fact-checking using expert-curated scientific charts. ClimateViz contains 49,862 claims linked to 2,896 visualizations, each labeled as support, refute, or not enough information. To improve interpretability, each example includes structured knowledge graph explanations covering trends, comparisons, and causal relations. We evaluate state-of-the-art multimodal language models, including both proprietary and open-source systems, in zero-shot and few-shot settings. Results show that current models struggle with chart-based reasoning: even the best systems, such as Gemini 2.5 and InternVL 2.5, reach only 76.2 to 77.8 percent accuracy in label-only settings, far below human performance (89.3 and 92.7 percent). Explanation-augmented outputs improve performance in some models. We released our dataset and code alongside the paper.
- Abstract(参考訳): 科学的ファクトチェックは主にテキストとテーブルに焦点を当てており、科学的チャートを見下ろしている。
専門家による科学的グラフを用いた科学的事実チェックのための,最初の大規模ベンチマークであるClimateVizを紹介する。
ClimateVizには2,896件のビジュアライゼーションに関連する49,862件のクレームが含まれている。
解釈可能性を改善するために、それぞれの例には、傾向、比較、因果関係に関する構造化知識グラフの説明が含まれる。
我々は、プロプライエタリシステムとオープンソースシステムの両方を含む最先端のマルチモーダル言語モデルをゼロショットおよび少数ショット設定で評価する。
Gemini 2.5やInternVL 2.5のような最高のシステムでさえ、ラベルのみの設定では76.2から77.8%の精度しか得られず、人間のパフォーマンス(89.3と92.7%)よりはるかに低い。
説明強化された出力は、いくつかのモデルのパフォーマンスを改善する。
論文とともにデータセットとコードを公開しました。
関連論文リスト
- Rethinking Comprehensive Benchmark for Chart Understanding: A Perspective from Scientific Literature [33.69273440337546]
我々は新しいベンチマークであるScience Chart QA (SCI-CQA)を導入する。
過去10年間で、トップクラスのコンピュータサイエンスカンファレンス15の論文から、202,760のイメージテキストペアのデータセットをキュレートしました。
SCI-CQAはまた、人間の試験にインスパイアされた新しい評価フレームワークを導入し、5,629の精査された質問を含んでいる。
論文 参考訳(メタデータ) (2024-12-11T05:29:54Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - VizExtract: Automatic Relation Extraction from Data Visualizations [7.2241069295727955]
本稿では,統計チャートから比較変数を自動的に抽出する枠組みを提案する。
コンピュータビジョンベースのフレームワークを活用して,線グラフや散布プロット,バーグラフなどの視覚化ファセットを自動的に識別し,ローカライズする。
制御された実験では、87.5%の精度で、グラフごとに1-3級数を持つグラフの変数間の相関、色の変化、およびラインスタイルを分類することができる。
論文 参考訳(メタデータ) (2021-12-07T04:27:08Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。