論文の概要: CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.17202v1
- Date: Thu, 22 May 2025 18:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.645427
- Title: CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models
- Title(参考訳): CHART-6:視覚言語モデルにおけるデータ可視化の人間中心評価
- Authors: Arnav Verma, Kushin Mukherjee, Christopher Potts, Elisa Kreiss, Judith E. Fan,
- Abstract要約: データビジュアライゼーションに関する推論を含むタスクにおいて、視覚言語モデルがどのように人間の振る舞いをエミュレートするかは不明だ。
そこで我々は,人間向けに設計された6つのデータ可視化リテラシー評価において,視覚言語モデル8つを評価した。
その結果、これらのモデルは平均して人間よりも悪い結果が得られた。
- 参考スコア(独自算出の注目度): 18.891323067948285
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data visualizations are powerful tools for communicating patterns in quantitative data. Yet understanding any data visualization is no small feat -- succeeding requires jointly making sense of visual, numerical, and linguistic inputs arranged in a conventionalized format one has previously learned to parse. Recently developed vision-language models are, in principle, promising candidates for developing computational models of these cognitive operations. However, it is currently unclear to what degree these models emulate human behavior on tasks that involve reasoning about data visualizations. This gap reflects limitations in prior work that has evaluated data visualization understanding in artificial systems using measures that differ from those typically used to assess these abilities in humans. Here we evaluated eight vision-language models on six data visualization literacy assessments designed for humans and compared model responses to those of human participants. We found that these models performed worse than human participants on average, and this performance gap persisted even when using relatively lenient criteria to assess model performance. Moreover, while relative performance across items was somewhat correlated between models and humans, all models produced patterns of errors that were reliably distinct from those produced by human participants. Taken together, these findings suggest significant opportunities for further development of artificial systems that might serve as useful models of how humans reason about data visualizations. All code and data needed to reproduce these results are available at: https://osf.io/e25mu/?view_only=399daff5a14d4b16b09473cf19043f18.
- Abstract(参考訳): データビジュアライゼーションは、定量的データでパターンを伝達するための強力なツールです。
しかし、どんなデータビジュアライゼーションも理解することは小さな偉業ではない。成功するためには、以前解析した従来の形式で配置された視覚的、数値的、言語的な入力を共同で理解する必要がある。
最近開発された視覚言語モデルは、原則として、これらの認知操作の計算モデルを開発するための有望な候補である。
しかしながら、これらのモデルが、データの視覚化に関する推論を含むタスクにおいて、人間の振る舞いをどの程度エミュレートしているかは、現時点では不明である。
このギャップは、人間のこれらの能力を評価するために一般的に使用されるものとは異なる尺度を用いて、人工システムにおけるデータの可視化理解を評価する以前の作業の限界を反映している。
そこで本研究では,人間用に設計した6つのデータ可視化リテラシー評価に基づいて8つの視覚言語モデルを評価し,そのモデル応答を被験者のモデル応答と比較した。
その結果, モデルの性能評価において, 比較的厳密な基準を用いた場合においても, 平均よりも性能が悪く, 性能差は持続することがわかった。
さらに、項目間の相対的なパフォーマンスは、モデルと人間の間に何らかの相関があったが、すべてのモデルが、人間の参加者が生成したものと確実に異なるエラーパターンを生成した。
これらの発見は、人間がデータの視覚化をどう考えるかの有用なモデルとして役立つかもしれない人工システムのさらなる発展のための重要な機会を示唆している。
これらの結果の再生に必要なコードとデータは、以下の通りである。
view_only=399daff5a14d4b16b09473cf19043f18。
関連論文リスト
- Testing the limits of fine-tuning to improve reasoning in vision language models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。
我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。
微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する人間のような堅牢な一般化に寄与しない。
論文 参考訳(メタデータ) (2025-02-21T18:58:30Z) - DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Exploring Alignment of Representations with Human Perception [47.53970721813083]
モデルによって類似した表現にマッピングされた入力は、人間によっても同様に認識されるべきであることを示す。
我々のアプローチは、モデルが人間の知覚に合致する程度を測ります。
アーキテクチャやトレーニングパラダイム,トレーニング損失,データ拡張といったモデルのさまざまな特性が,人間の知覚に整合した表現の学習において重要な役割を担っていることが分かりました。
論文 参考訳(メタデータ) (2021-11-29T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。