論文の概要: CHAOS: Chart Analysis with Outlier Samples
- arxiv url: http://arxiv.org/abs/2505.17235v1
- Date: Thu, 22 May 2025 19:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.666644
- Title: CHAOS: Chart Analysis with Outlier Samples
- Title(参考訳): CHAOS:outlierサンプルを用いたチャート解析
- Authors: Omar Moured, Yufan Chen, Ruiping Liu, Simon Reiß, Philip Torr, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: CHAOSはマルチモーダル大言語モデル(MLLM)をチャートの摂動に対して評価するためのベンチマークである。
ベンチマークには、トレーニング範囲とデータに基づいて、13の最先端MLLMを3つのグループに分割する。
- 参考スコア(独自算出の注目度): 31.64244745491319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charts play a critical role in data analysis and visualization, yet real-world applications often present charts with challenging or noisy features. However, "outlier charts" pose a substantial challenge even for Multimodal Large Language Models (MLLMs), which can struggle to interpret perturbed charts. In this work, we introduce CHAOS (CHart Analysis with Outlier Samples), a robustness benchmark to systematically evaluate MLLMs against chart perturbations. CHAOS encompasses five types of textual and ten types of visual perturbations, each presented at three levels of severity (easy, mid, hard) inspired by the study result of human evaluation. The benchmark includes 13 state-of-the-art MLLMs divided into three groups (i.e., general-, document-, and chart-specific models) according to the training scope and data. Comprehensive analysis involves two downstream tasks (ChartQA and Chart-to-Text). Extensive experiments and case studies highlight critical insights into robustness of models across chart perturbations, aiming to guide future research in chart understanding domain. Data and code are publicly available at: http://huggingface.co/datasets/omoured/CHAOS.
- Abstract(参考訳): グラフはデータ分析や視覚化において重要な役割を担いますが、現実のアプリケーションはしばしば、難しい機能やうるさい機能を備えたチャートを提示します。
しかし、"outlier charts"は、摂動チャートの解釈に苦慮するマルチモーダル大言語モデル(MLLM)においても、大きな課題となる。
本研究では,チャートの摂動に対してMLLMを体系的に評価する頑健性ベンチマークであるCHAOS(CHart Analysis with Outlier Samples)を紹介する。
CHAOSは5種類のテキストと10種類の視覚摂動を包含しており、それぞれが人間の評価の結果にインスパイアされた3レベルの重度(簡単、中、硬度)で提示される。
このベンチマークには、トレーニング範囲とデータに基づいて、13の最先端MLLMを3つのグループ(一般、文書、チャート固有のモデル)に分割する。
包括的な分析には、下流の2つのタスク(ChartQAとChart-to-Text)が含まれる。
広範囲にわたる実験とケーススタディは、チャート理解領域における将来の研究を導くことを目的として、チャート摂動におけるモデルの堅牢性に関する重要な洞察を強調している。
データとコードは、http://huggingface.co/datasets/omoured/CHAOSで公開されている。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。