論文の概要: Evaluating Compliance with Visualization Guidelines in Diagrams for Scientific Publications Using Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.19825v1
- Date: Tue, 24 Jun 2025 17:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.753435
- Title: Evaluating Compliance with Visualization Guidelines in Diagrams for Scientific Publications Using Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルを用いた学術出版用図表における可視化ガイドラインの適合性の評価
- Authors: Johannes Rückert, Louise Bloch, Christoph M. Friedrich,
- Abstract要約: データビジュアライゼーションの研究分野は、ダイアグラムの作成と利用に関する原則とガイドラインの定義を扱う。
大規模視覚言語モデル(VLM)は、選択されたデータ可視化原則やガイドラインに関する潜在的な問題を特定するためにダイアグラムを分析するために用いられる。
VLMは、xラベルの欠如、伝説の欠如、不要な3D効果など、ダイアグラムの潜在的な問題を自動的に識別するために使用することができる。
- 参考スコア(独自算出の注目度): 0.5718674818405842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagrams are widely used to visualize data in publications. The research field of data visualization deals with defining principles and guidelines for the creation and use of these diagrams, which are often not known or adhered to by researchers, leading to misinformation caused by providing inaccurate or incomplete information. In this work, large Vision Language Models (VLMs) are used to analyze diagrams in order to identify potential problems in regards to selected data visualization principles and guidelines. To determine the suitability of VLMs for these tasks, five open source VLMs and five prompting strategies are compared using a set of questions derived from selected data visualization guidelines. The results show that the employed VLMs work well to accurately analyze diagram types (F1-score 82.49 %), 3D effects (F1-score 98.55 %), axes labels (F1-score 76.74 %), lines (RMSE 1.16), colors (RMSE 1.60) and legends (F1-score 96.64 %, RMSE 0.70), while they cannot reliably provide feedback about the image quality (F1-score 0.74 %) and tick marks/labels (F1-score 46.13 %). Among the employed VLMs, Qwen2.5VL performs best, and the summarizing prompting strategy performs best for most of the experimental questions. It is shown that VLMs can be used to automatically identify a number of potential issues in diagrams, such as missing axes labels, missing legends, and unnecessary 3D effects. The approach laid out in this work can be extended for further aspects of data visualization.
- Abstract(参考訳): ダイアグラムは出版物のデータを視覚化するために広く使われている。
データビジュアライゼーションの研究分野は、これらの図の作成と使用に関する原則とガイドラインの定義を扱うが、これは研究者によってよく知られてはいない。
本研究では,大規模視覚言語モデル(VLM)を用いてダイアグラムを解析し,選択したデータ可視化の原則やガイドラインに関する潜在的な問題を特定する。
これらのタスクに対するVLMの適合性を決定するため、5つのオープンソースVLMと5つのプロンプト戦略を、選択したデータビジュアライゼーションガイドラインから導出した一連の質問を用いて比較した。
その結果、VLMは図型(F1-score 82.49 %)、3Dエフェクト(F1-score 98.55 %)、軸ラベル(F1-score 76.74 %)、線(RMSE 1.16)、色(RMSE 1.60)、伝説(F1-score 96.64 %, RMSE 0.70)を正確に分析できる一方で、画像品質(F1-score 0.74 %)と点標(F1-score 46.13 %)に関するフィードバックを確実に提供できないことがわかった。
採用されているVLMの中では、Qwen2.5VLが最善であり、要約促進戦略は、ほとんどの実験的な問題に対して最善である。
VLMは、xラベルの欠如、伝説の欠如、不要な3D効果など、ダイアグラムの潜在的な問題を自動的に識別するために使用できる。
この作業で述べられたアプローチは、データの可視化のさらなる側面のために拡張することができる。
関連論文リスト
- Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models [1.597617022056624]
LVLM(Large Vision-Language Models)は、抽象的な視覚タスクに取り組む能力がますます高まっている。
VisGraphVarは7つのタスクカテゴリのグラフ画像を生成することができる、カスタマイズ可能なベンチマークジェネレータである。
画像の視覚特性の変化(例えばノードのラベル付けやレイアウト)と視覚的不完全さの意図的な含意がモデルの性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2024-11-22T10:10:53Z) - Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models [23.571294524129847]
視覚言語モデル(VLM)は多くのチャート理解タスクで成功している。
本稿では,VLMのゼロショットプロンプトの精度を,人間の評価プロファイルを定式化して評価することにより,そのような応用の基礎を定式化した。
論文 参考訳(メタデータ) (2024-10-31T23:24:46Z) - Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Assessing LLMs Suitability for Knowledge Graph Completion [0.0]
大きな言語モデル(LLM)は知識グラフに関連するタスクを解決するために使用できる。
LLMは、答えを幻覚させることや、結果を非決定論的に出力することが知られている。
論文 参考訳(メタデータ) (2024-05-27T15:04:50Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。