論文の概要: Towards Understanding Graphical Perception in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2503.10857v1
- Date: Thu, 13 Mar 2025 20:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:25.459413
- Title: Towards Understanding Graphical Perception in Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおけるグラフィカル知覚の理解に向けて
- Authors: Kai Zhang, Jianwei Yang, Jeevana Priya Inala, Chandan Singh, Jianfeng Gao, Yu Su, Chenglong Wang,
- Abstract要約: 我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
- 参考スコア(独自算出の注目度): 80.44471730672801
- License:
- Abstract: Despite the promising results of large multimodal models (LMMs) in complex vision-language tasks that require knowledge, reasoning, and perception abilities together, we surprisingly found that these models struggle with simple tasks on infographics that require perception only. As existing benchmarks primarily focus on end tasks that require various abilities, they provide limited, fine-grained insights into the limitations of the models' perception abilities. To address this gap, we leverage the theory of graphical perception, an approach used to study how humans decode visual information encoded on charts and graphs, to develop an evaluation framework for analyzing gaps in LMMs' perception abilities in charts. With automated task generation and response evaluation designs, our framework enables comprehensive and controlled testing of LMMs' graphical perception across diverse chart types, visual elements, and task types. We apply our framework to evaluate and diagnose the perception capabilities of state-of-the-art LMMs at three granularity levels (chart, visual element, and pixel). Our findings underscore several critical limitations of current state-of-the-art LMMs, including GPT-4o: their inability to (1) generalize across chart types, (2) understand fundamental visual elements, and (3) cross reference values within a chart. These insights provide guidance for future improvements in perception abilities of LMMs. The evaluation framework and labeled data are publicly available at https://github.com/microsoft/lmm-graphical-perception.
- Abstract(参考訳): 複雑な視覚言語タスクにおいて、知識、推論、知覚能力を必要とする大規模マルチモーダルモデル(LMM)の有望な結果にもかかわらず、これらのモデルが、知覚のみを必要とするインフォグラフィック上の単純なタスクと競合していることは驚くべきことである。
既存のベンチマークは主に様々な能力を必要とするエンドタスクに焦点を当てているため、モデルの知覚能力の限界について限定的できめ細かい洞察を提供する。
このギャップに対処するために、グラフやグラフ上に符号化された視覚情報を人間がどのようにデコードするかを研究するために使用されるグラフィカル知覚理論を活用し、チャートにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発する。
自動タスク生成と応答評価設計により,多種多様なチャートタイプ,視覚要素,タスクタイプにわたるLMMの視覚的知覚の包括的かつ制御されたテストが可能になる。
我々は,3つの粒度レベル(チャート,ビジュアル要素,ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
GPT-4oは,(1)チャート型を一般化できないこと,(2)基本的な視覚要素を理解すること,(3)チャート内の相互参照値である。
これらの知見は、LMMの知覚能力の今後の改善のためのガイダンスを提供する。
評価フレームワークとラベル付きデータはhttps://github.com/microsoft/lmm-graphical-perceptionで公開されている。
関連論文リスト
- VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models [1.597617022056624]
LVLM(Large Vision-Language Models)は、抽象的な視覚タスクに取り組む能力がますます高まっている。
VisGraphVarは7つのタスクカテゴリのグラフ画像を生成することができる、カスタマイズ可能なベンチマークジェネレータである。
画像の視覚特性の変化(例えばノードのラベル付けやレイアウト)と視覚的不完全さの意図的な含意がモデルの性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2024-11-22T10:10:53Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
大規模マルチモーダルモデル(LMM)の視覚的グラウンドコード生成能力の評価を目的とした新しいベンチマークであるChartMimicを導入する。
ChartMimicには4,800の人間が計算した(図、命令、コード)三つ子が含まれている。
既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文 参考訳(メタデータ) (2024-06-14T12:10:51Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。