論文の概要: Diagnosing Bottlenecks in Data Visualization Understanding by Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.21740v1
- Date: Thu, 02 Oct 2025 18:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.94597
- Title: Diagnosing Bottlenecks in Data Visualization Understanding by Vision-Language Models
- Title(参考訳): 視覚言語モデルによるデータ可視化におけるボットネックの診断
- Authors: Alexa R. Tartaglini, Satchel Grant, Daniel Wurgaft, Christopher Potts, Judith E. Fan,
- Abstract要約: 現在の視覚言語モデル(VLM)は、基本的なデータ可視化理解タスクに苦戦している。
VLMの失敗は、データビジュアライゼーションにおける視覚情報のエンコード方法、視覚と言語モジュール間の情報転送方法、言語モジュール内での情報処理方法の制限に起因するか?
我々は,データ可視化理解タスクのスイートであるFUGUを開発した。
- 参考スコア(独自算出の注目度): 25.564425023762045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data visualizations are vital components of many scientific articles and news stories. Current vision-language models (VLMs) still struggle on basic data visualization understanding tasks, but the causes of failure remain unclear. Are VLM failures attributable to limitations in how visual information in the data visualization is encoded, how information is transferred between the vision and language modules, or how information is processed within the language module? We developed FUGU, a suite of data visualization understanding tasks, to precisely characterize potential sources of difficulty (e.g., extracting the position of data points, distances between them, and other summary statistics). We used FUGU to investigate three widely used VLMs. To diagnose the sources of errors produced by these models, we used activation patching and linear probes to trace information flow through models across a variety of prompting strategies. We found that some models fail to generate the coordinates of individual data points correctly, and these initial errors often lead to erroneous final responses. When these models are provided with the correct coordinates, performance improves substantially. Moreover, even when the model generates an incorrect response, the correct coordinates can be successfully read out from the latent representations in the vision encoder, suggesting that the source of these errors lies in the vision-language handoff. We further found that while providing correct coordinates helps with tasks involving one or a small number of data points, it generally worsens performance for tasks that require extracting statistical relationships across many data points. Fine-tuning models on FUGU also fails to yield ceiling performance. These findings point to architectural constraints in current VLMs that might pose significant challenges for reliable data visualization understanding.
- Abstract(参考訳): データビジュアライゼーションは多くの科学論文やニュース記事の重要な構成要素である。
現在の視覚言語モデル(VLM)は、基本的なデータ可視化理解タスクに苦戦しているが、失敗の原因はまだ不明である。
VLMの失敗は、データビジュアライゼーションにおける視覚情報のエンコード方法、視覚と言語モジュール間の情報転送方法、言語モジュール内での情報処理方法の制限に起因するか?
本研究では,データ可視化理解タスクのスイートであるFUGUを開発した。
我々はFUGUを用いて3つの広く使われているVLMを調査した。
これらのモデルが生成する誤りの原因を診断するために、アクティベーションパッチと線形プローブを用いて、様々なプロンプト戦略のモデルを通して情報の流れを辿った。
いくつかのモデルでは個々のデータポイントの座標を正しく生成できないことが分かり、これらの初期誤差はしばしば誤った最終応答につながることが判明した。
これらのモデルに正しい座標が与えられると、性能が大幅に向上する。
さらに、モデルが誤った応答を発生しても、視覚エンコーダの潜在表現から正しい座標を読み取ることができ、これらの誤りの原因が視覚言語ハンドオフにあることを示唆する。
さらに、正しい座標を提供することは、1つまたは少数のデータポイントを含むタスクに役立ちますが、多くのデータポイントをまたいだ統計的関係の抽出を必要とするタスクのパフォーマンスを低下させるのが一般的です。
FUGUの微調整モデルも天井性能を達成できなかった。
これらの知見は、現在のVLMにおけるアーキテクチャ上の制約が、信頼性のあるデータ視覚化の理解に重大な課題をもたらす可能性があることを示している。
関連論文リスト
- Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。
リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。
リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T08:02:54Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - VIGC: Visual Instruction Generation and Correction [47.477290387002284]
視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。
LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。
本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T11:21:05Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Neural Relation Graph: A Unified Framework for Identifying Label Noise
and Outlier Data [44.64190826937705]
本稿では,データのリレーショナルグラフ構造に基づいてラベルエラーや外れ値データを検出するスケーラブルなアルゴリズムを提案する。
また,特徴埋め込み空間におけるデータポイントのコンテキスト情報を提供する可視化ツールも導入した。
提案手法は,検討対象のタスクすべてに対して最先端検出性能を達成し,大規模実世界のデータセットでその有効性を実証する。
論文 参考訳(メタデータ) (2023-01-29T02:09:13Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。