論文の概要: Rethinking Comprehensive Benchmark for Chart Understanding: A Perspective from Scientific Literature
- arxiv url: http://arxiv.org/abs/2412.12150v1
- Date: Wed, 11 Dec 2024 05:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:15.867453
- Title: Rethinking Comprehensive Benchmark for Chart Understanding: A Perspective from Scientific Literature
- Title(参考訳): チャート理解のための総合ベンチマークの再考:科学文献からの展望
- Authors: Lingdong Shen, Qigqi, Kun Ding, Gaofeng Meng, Shiming Xiang,
- Abstract要約: 我々は新しいベンチマークであるScience Chart QA (SCI-CQA)を導入する。
過去10年間で、トップクラスのコンピュータサイエンスカンファレンス15の論文から、202,760のイメージテキストペアのデータセットをキュレートしました。
SCI-CQAはまた、人間の試験にインスパイアされた新しい評価フレームワークを導入し、5,629の精査された質問を含んでいる。
- 参考スコア(独自算出の注目度): 33.69273440337546
- License:
- Abstract: Scientific Literature charts often contain complex visual elements, including multi-plot figures, flowcharts, structural diagrams and etc. Evaluating multimodal models using these authentic and intricate charts provides a more accurate assessment of their understanding abilities. However, existing benchmarks face limitations: a narrow range of chart types, overly simplistic template-based questions and visual elements, and inadequate evaluation methods. These shortcomings lead to inflated performance scores that fail to hold up when models encounter real-world scientific charts. To address these challenges, we introduce a new benchmark, Scientific Chart QA (SCI-CQA), which emphasizes flowcharts as a critical yet often overlooked category. To overcome the limitations of chart variety and simplistic visual elements, we curated a dataset of 202,760 image-text pairs from 15 top-tier computer science conferences papers over the past decade. After rigorous filtering, we refined this to 37,607 high-quality charts with contextual information. SCI-CQA also introduces a novel evaluation framework inspired by human exams, encompassing 5,629 carefully curated questions, both objective and open-ended. Additionally, we propose an efficient annotation pipeline that significantly reduces data annotation costs. Finally, we explore context-based chart understanding, highlighting the crucial role of contextual information in solving previously unanswerable questions.
- Abstract(参考訳): 科学文献チャートには、マルチプロットフィギュア、フローチャート、構造図など、複雑な視覚要素が含まれていることが多い。
これらの正確で複雑なチャートを用いたマルチモーダルモデルの評価は、それらの理解能力をより正確に評価する。
しかし、既存のベンチマークでは、チャートタイプが狭いこと、過剰に単純化されたテンプレートベースの質問とビジュアル要素、不適切な評価方法など、制限に直面している。
これらの欠点は、モデルが現実世界の科学的チャートに遭遇しても、パフォーマンススコアが膨らみ続けるのに失敗する。
これらの課題に対処するため、我々はSCI-CQA(Scientific Chart QA)という新しいベンチマークを導入する。
グラフの多様性と単純な視覚要素の限界を克服するため、過去10年間に15の上位階層のコンピュータサイエンスカンファレンスから202,760のイメージテキストペアのデータセットをキュレートした。
厳密なフィルタリングの後、文脈情報付き37,607の高品質なチャートに洗練しました。
SCI-CQAはまた、人間による試験に触発された新しい評価フレームワークを導入し、客観的およびオープンエンドの両方で、5,629の慎重にキュレートされた質問を包含した。
さらに,データアノテーションのコストを大幅に削減する効率的なアノテーションパイプラインを提案する。
最後に, 文脈に基づくチャート理解について検討し, 従来は解けなかった問題を解く上で, 文脈情報の重要性を強調した。
関連論文リスト
- VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Enhancing Question Answering on Charts Through Effective Pre-training Tasks [26.571522748519584]
グラフやプロットに適用した場合の現在のVisualQAモデルの制限に対処する。
以上の結果から,既存のモデルでは,図の構造的・視覚的文脈に関する疑問に答える上で,特に性能が低いことが示唆された。
本稿では,構造的・視覚的知識と数値的疑問の理解の両面から,既存のモデルを強制する3つの簡単な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:40:10Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - RealCQA: Scientific Chart Question Answering as a Test-bed for
First-Order Logic [8.155575318208628]
実世界のグラフ上での視覚的QAのグラフ化のためのベンチマークとデータセットを提案する。
私たちのコントリビューションには、ランク付けと非ランク付けの両方のバリエーションを備えた、新しい回答タイプである'list'の導入が含まれています。
実世界のアウト・オブ・ディストリビューション・データセットを用いて行った実験の結果,大規模事前学習モデルのロバストな評価が得られた。
論文 参考訳(メタデータ) (2023-08-03T18:21:38Z) - ChartParser: Automatic Chart Parsing for Print-Impaired [2.1325744957975568]
インフォグラフィックは、質的または定量的な発見を報告するための科学文書の不可欠な構成要素であることが多い。
彼らの解釈は、盲目、低視力、および他のBLV個人にとっての挑戦であり続けている。
我々は、ディープラーニング、OCR、画像処理技術を活用して、研究論文からすべての図形を抽出する完全自動化パイプラインを提案する。
論文 参考訳(メタデータ) (2022-11-16T12:19:10Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。