Fugu-MT 論文翻訳(概要): Do Large Language Models Understand Data Visualization Principles?

論文の概要: Do Large Language Models Understand Data Visualization Principles?

arxiv url: http://arxiv.org/abs/2602.20084v1
Date: Mon, 23 Feb 2026 17:51:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.934833
Title: Do Large Language Models Understand Data Visualization Principles?
Title（参考訳）: 大規模言語モデルはデータの可視化原理を理解するか?
Authors: Martin Sinnona, Valentin Bonas, Viviana Siless, Emmanuel Iarussi,
Abstract要約: 大規模言語モデル (LLM) と視覚言語モデル (VLM) が直接視覚化の原則を推論し、強制できるかどうかは不明だ。我々は、チェックタスクと修正タスクの両方を評価し、モデルの原則違反の検出方法と、欠陥のあるチャート仕様の正しさを評価する。我々の研究は、可視化設計の柔軟なバリデータやエディターとしての大規模(視覚)言語モデルの約束と、視覚知覚のより微妙な側面における象徴的解法との永続的なギャップの両方を強調した。
参考スコア（独自算出の注目度）: 2.3332469289621787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data visualization principles, derived from decades of research in design and perception, ensure proper visual communication. While prior work has shown that large language models (LLMs) can generate charts or flag misleading figures, it remains unclear whether they and their vision-language counterparts (VLMs) can reason about and enforce visualization principles directly. Constraint based systems encode these principles as logical rules for precise automated checks, but translating them into formal specifications demands expert knowledge. This motivates leveraging LLMs and VLMs as principle checkers that can reason about visual design directly, bypassing the need for symbolic rule specification. In this paper, we present the first systematic evaluation of both LLMs and VLMs on their ability to reason about visualization principles, using hard verification ground truth derived from Answer Set Programming (ASP). We compiled a set of visualization principles expressed as natural-language statements and generated a controlled dataset of approximately 2,000 Vega-Lite specifications annotated with explicit principle violations, complemented by over 300 real-world Vega-Lite charts. We evaluated both checking and fixing tasks, assessing how well models detect principle violations and correct flawed chart specifications. Our work highlights both the promise of large (vision-)language models as flexible validators and editors of visualization designs and the persistent gap with symbolic solvers on more nuanced aspects of visual perception. They also reveal an interesting asymmetry: frontier models tend to be more effective at correcting violations than at detecting them reliably.
Abstract（参考訳）: データビジュアライゼーションの原則は、デザインと知覚における数十年の研究から派生したもので、適切な視覚コミュニケーションを保証する。以前の研究は、大きな言語モデル(LLM)がチャートを生成できるか、誤解を招く数字をフラグ付けできることを示したが、彼らとそのビジョン言語モデル(VLM)が直接視覚化原則を推論し、強制できるかどうかは不明だ。制約ベースのシステムは、これらの原則を正確な自動チェックの論理ルールとしてエンコードするが、それらを正式な仕様に翻訳するには専門家の知識が必要である。これにより、LLMとVLMを視覚設計を直接推論できる原則チェッカーとして活用し、象徴的なルール仕様の必要性を回避できる。本稿では、解答集合プログラミング(ASP.NET)から派生した厳密な検証基盤真理を用いて、可視化原理を推論する能力について、LLMとVLMの双方を初めて体系的に評価する。我々は、自然言語で表現された可視化原則の集合をまとめ、300以上の実世界のVega-Liteチャートを補完する明示的な原則違反を注釈付けした約2000のVega-Lite仕様の制御データセットを生成した。我々は、チェックと修正の両方のタスクを評価し、モデルの原則違反の検出方法と欠陥のあるチャート仕様の正しさを評価した。我々の研究は、可視化デザインの柔軟なバリデータやエディターとしての大規模(視覚)言語モデルの約束と、視覚知覚のより微妙な側面における象徴的解法との永続的なギャップの両方を強調した。彼らはまた、興味深い非対称性を明らかにしている:フロンティアモデルは、それらを確実に検出するよりも、違反を修正するのに効果的である。

関連論文リスト

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文参考訳（メタデータ） (2026-03-03T03:18:31Z)
De-rendering, Reasoning, and Repairing Charts with Vision-Language Models [2.3332469289621787]
ルールベースの視覚化リンタは違反をフラグ付けするが、コンテキストを見逃し、意味のある設計変更を示唆しない。グラフのデレンダリング、自動分析、反復的な改善を組み合わせて、実用的な、解釈可能なフィードバックを提供するフレームワークを紹介します。
論文参考訳（メタデータ） (2026-02-23T19:16:27Z)
Do Large Language Models Understand Data Visualization Rules? [2.3332469289621787]
大規模言語モデル(LLM)は、チャートを生成するか、誤解を招く数字をフラグにすることができるが、それらが直接視覚化ルールを推論し強制できるかどうかは不明だ。我々は、解答集合プログラミング(ASP)から導かれるハード・ビジュアライゼーション基底真理を用いた可視化ルールに対するLCMの最初の体系的評価を提案する。その結果,フロンティアモデルは高い密着性(Gemma 3 4B / 27B:100%, GPT-oss 20B: 98%)を示し,共通違反を確実に検出する(F1から0.82まで)。
論文参考訳（メタデータ） (2026-02-23T18:47:51Z)
Vision Language Models Are Not (Yet) Spelling Correctors [0.742779257315787]
視覚入力からのスペル補正は視覚言語モデル(VLM)に固有の課題をもたらす我々は、中国語と英語で実世界の視覚スペル補正について、VLMを体系的に評価する最初のベンチマークであるReViCoを提案する。
論文参考訳（メタデータ） (2025-09-22T07:10:42Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。 GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文参考訳（メタデータ） (2023-05-20T16:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。