論文の概要: Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.00257v1
- Date: Thu, 31 Oct 2024 23:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:24.901786
- Title: Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models
- Title(参考訳): 視覚言語モデルのゼロショットプロンプティングによるデータ可視化における図形知覚の理解
- Authors: Grace Guo, Jenna Jiayi Kang, Raj Sanjay Shah, Hanspeter Pfister, Sashank Varma,
- Abstract要約: 視覚言語モデル(VLM)は多くのチャート理解タスクで成功している。
本稿では,VLMのゼロショットプロンプトの精度を,人間の評価プロファイルを定式化して評価することにより,そのような応用の基礎を定式化した。
- 参考スコア(独自算出の注目度): 23.571294524129847
- License:
- Abstract: Vision Language Models (VLMs) have been successful at many chart comprehension tasks that require attending to both the images of charts and their accompanying textual descriptions. However, it is not well established how VLM performance profiles map to human-like behaviors. If VLMs can be shown to have human-like chart comprehension abilities, they can then be applied to a broader range of tasks, such as designing and evaluating visualizations for human readers. This paper lays the foundations for such applications by evaluating the accuracy of zero-shot prompting of VLMs on graphical perception tasks with established human performance profiles. Our findings reveal that VLMs perform similarly to humans under specific task and style combinations, suggesting that they have the potential to be used for modeling human performance. Additionally, variations to the input stimuli show that VLM accuracy is sensitive to stylistic changes such as fill color and chart contiguity, even when the underlying data and data mappings are the same.
- Abstract(参考訳): 視覚言語モデル(VLM)は多くのチャート理解タスクで成功しており、チャートの画像と付随するテキスト記述の両方に出席する必要がある。
しかしながら、VLMのパフォーマンスプロファイルが人間のような振る舞いにどのようにマッピングされるかはよく分かっていない。
もしVLMが人間のようなチャート理解能力を持つことを示すことができれば、人間の読者のために視覚化を設計・評価するなど、幅広いタスクに適用することができる。
本稿では,VLMのゼロショットプロンプトの精度を,人間の評価プロファイルを定式化して評価することにより,そのような応用の基礎を定式化した。
以上の結果から,VLMは特定のタスクとスタイルの組み合わせで人間と類似して動作し,人間のパフォーマンスをモデル化できる可能性が示唆された。
さらに入力刺激の変化は、基礎となるデータとデータマッピングが同じであっても、VLMの精度は、フィリング色やチャートの整合性などのスタイル変化に敏感であることを示している。
関連論文リスト
- Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:38:12Z) - Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文 参考訳(メタデータ) (2024-12-24T16:08:25Z) - VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models [1.597617022056624]
LVLM(Large Vision-Language Models)は、抽象的な視覚タスクに取り組む能力がますます高まっている。
VisGraphVarは7つのタスクカテゴリのグラフ画像を生成することができる、カスタマイズ可能なベンチマークジェネレータである。
画像の視覚特性の変化(例えばノードのラベル付けやレイアウト)と視覚的不完全さの意図的な含意がモデルの性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2024-11-22T10:10:53Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文 参考訳(メタデータ) (2023-05-10T17:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。