論文の概要: ChartAct: A Benchmark for Dynamic Chart Understanding
- arxiv url: http://arxiv.org/abs/2605.26994v2
- Date: Thu, 28 May 2026 02:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.744331
- Title: ChartAct: A Benchmark for Dynamic Chart Understanding
- Title(参考訳): ChartAct: 動的チャート理解のためのベンチマーク
- Authors: Muye Huang, Lin Wu, Lingling Zhang, Hang Yan, Zhiyuan Wang, Yumeng Fu, Zesheng Yang, Jun Liu,
- Abstract要約: 既存のベンチマークは主に静的チャートに焦点を当てているが、現実のチャートはしばしば動的でインタラクティブである。
この能力を評価するために,動的チャート理解のためのインタラクティブなベンチマークであるChartActを提案する。
ChartActは8つの実際のチャートサイトから673の動的チャートを収集しフィルタし、7つの一般的なチャートタイプをカバーし、1,440の高品質な質問回答サンプルを構築している。
- 参考スコア(独自算出の注目度): 18.74268061655602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are widely used to present complex data for analysis and decision making. Existing chart understanding benchmarks mainly focus on static charts, but real-world charts are often dynamic and interactive. Key information may only appear after actions such as hovering, clicking, zooming, or dragging. Dynamic chart understanding therefore requires models to identify visible content, choose proper interactions, and reason over changing chart states. To evaluate this ability, we propose ChartAct, an interactive benchmark for dynamic chart understanding. ChartAct collects and filters 673 dynamic charts from 8 real chart websites, covers 7 common chart types, and constructs 1,440 high-quality question-answer samples. Each sample is instantiated in two environments, Dynamic Chart and Dashboard Chart, to evaluate dynamic chart understanding under different contexts. Based on ChartAct, we systematically evaluate 11 advanced multimodal models and GUI agents. Experimental results show that existing models still have clear limitations in dynamic chart understanding. The strongest model, Claude-Opus-4.7, achieves an average success rate of 84.5\%, while most models remain below 60\%. We also conduct detailed failure attribution and case analysis. ChartAct provides a new benchmark for studying chart understanding in real interactive environments. Codes at https://github.com/wulin-wulin/OSWorld_Chart
- Abstract(参考訳): チャートは分析と意思決定のための複雑なデータを示すために広く使われている。
既存のチャート理解ベンチマークは主に静的チャートに焦点を当てているが、現実のチャートはしばしば動的でインタラクティブである。
重要な情報はホバリング、クリック、ズーム、ドラッグといったアクションの後にのみ表示される。
そのため、動的チャート理解には、可視的コンテンツを特定し、適切なインタラクションを選択し、チャートの状態を変更する理由を判断するモデルが必要である。
この能力を評価するために,動的チャート理解のためのインタラクティブなベンチマークであるChartActを提案する。
ChartActは8つの実際のチャートサイトから673の動的チャートを収集しフィルタし、7つの一般的なチャートタイプをカバーし、1,440の高品質な質問回答サンプルを構築している。
各サンプルはDynamic ChartとDashboard Chartという2つの環境でインスタンス化され、異なるコンテキスト下で動的チャート理解を評価する。
ChartActに基づいて、11の高度なマルチモーダルモデルとGUIエージェントを体系的に評価する。
実験結果から,既存のモデルには動的チャート理解の限界がまだ残っていることが示唆された。
最も強力なClaude-Opus-4.7は平均成功率は84.5\%であるが、ほとんどのモデルは60\%以下である。
私たちはまた、詳細な失敗の帰属とケース分析も行います。
ChartActは、実際のインタラクティブ環境でチャート理解を研究するための新しいベンチマークを提供する。
https://github.com/wulin-wulin/OSWorld_Chart
関連論文リスト
- ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。