論文の概要: InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information
- arxiv url: http://arxiv.org/abs/2508.07630v1
- Date: Mon, 11 Aug 2025 05:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.954019
- Title: InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information
- Title(参考訳): InterChart: 分解された分散チャート情報にわたるビジュアル推論のベンチマーク
- Authors: Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta,
- Abstract要約: 視覚言語モデル(VLM)が複数の関連チャートにどの程度うまく関連しているかを評価するための診断ベンチマークであるInterChartを紹介する。
ベンチマークは,個々のチャートに対する現実的推論,合成的に整合したチャートセット間の積分解析,視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類する。
- 参考スコア(独自算出の注目度): 44.79888692172093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce InterChart, a diagnostic benchmark that evaluates how well vision-language models (VLMs) reason across multiple related charts, a task central to real-world applications such as scientific reporting, financial analysis, and public policy dashboards. Unlike prior benchmarks focusing on isolated, visually uniform charts, InterChart challenges models with diverse question types ranging from entity inference and trend correlation to numerical estimation and abstract multi-step reasoning grounded in 2-3 thematically or structurally related charts. We organize the benchmark into three tiers of increasing difficulty: (1) factual reasoning over individual charts, (2) integrative analysis across synthetically aligned chart sets, and (3) semantic inference over visually complex, real-world chart pairs. Our evaluation of state-of-the-art open and closed-source VLMs reveals consistent and steep accuracy declines as chart complexity increases. We find that models perform better when we decompose multi-entity charts into simpler visual units, underscoring their struggles with cross-chart integration. By exposing these systematic limitations, InterChart provides a rigorous framework for advancing multimodal reasoning in complex, multi-visual environments.
- Abstract(参考訳): InterChartは、複数の関連チャートにまたがる視覚言語モデル(VLM)の理性を評価する診断ベンチマークであり、科学報告、財務分析、公共政策ダッシュボードといった現実世界のアプリケーションに中心的なタスクである。
分離された、視覚的に均一なチャートに焦点を当てた以前のベンチマークとは異なり、InterChartは、エンティティ推論やトレンド相関から数値推定、数学的または構造的に関連付けられた抽象的な多段階推論まで、多様な質問タイプを持つモデルに挑戦する。
1) 個々のチャートに対する現実的推論,(2) 合成的に整列したチャート集合間の積分解析,(3) 視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類した。
最先端のオープンおよびクローズドソースVLMの評価は,チャートの複雑さが増大するにつれて,一貫した,急激な精度低下を示す。
マルチエンタリティチャートを単純な視覚単位に分解すると、モデルの性能が向上し、チャート間の統合に苦戦していることが分かる。
これらの体系的な制限を明らかにすることで、InterChartは複雑なマルチ視覚環境においてマルチモーダル推論を進めるための厳密なフレームワークを提供する。
関連論文リスト
- CHAOS: Chart Analysis with Outlier Samples [31.64244745491319]
CHAOSはマルチモーダル大言語モデル(MLLM)をチャートの摂動に対して評価するためのベンチマークである。
ベンチマークには、トレーニング範囲とデータに基づいて、13の最先端MLLMを3つのグループに分割する。
論文 参考訳(メタデータ) (2025-05-22T19:26:49Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。