論文の概要: Tell Me Without Telling Me: Two-Way Prediction of Visualization Literacy and Visual Attention
- arxiv url: http://arxiv.org/abs/2508.03713v1
- Date: Tue, 22 Jul 2025 20:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.340458
- Title: Tell Me Without Telling Me: Two-Way Prediction of Visualization Literacy and Visual Attention
- Title(参考訳): 教えてくれない:可視化リテラシーと視覚的注意の双方向予測
- Authors: Minsuk Chang, Yao Wang, Huichen Will Wang, Yuanhong Zhou, Andreas Bulling, Cindy Xiong Bearfield,
- Abstract要約: 視覚データ探索における注意パターンは,参加者のリテラシーレベルと相関することを示す。
これらの知見を活用する2つの計算モデル(Lit2SalとSal2Lit)を提案する。
- 参考スコア(独自算出の注目度): 20.87674676293376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accounting for individual differences can improve the effectiveness of visualization design. While the role of visual attention in visualization interpretation is well recognized, existing work often overlooks how this behavior varies based on visual literacy levels. Based on data from a 235-participant user study covering three visualization tests (mini-VLAT, CALVI, and SGL), we show that distinct attention patterns in visual data exploration can correlate with participants' literacy levels: While experts (high-scorers) generally show a strong attentional focus, novices (low-scorers) focus less and explore more. We then propose two computational models leveraging these insights: Lit2Sal -- a novel visual saliency model that predicts observer attention given their visualization literacy level, and Sal2Lit -- a model to predict visual literacy from human visual attention data. Our quantitative and qualitative evaluation demonstrates that Lit2Sal outperforms state-of-the-art saliency models with literacy-aware considerations. Sal2Lit predicts literacy with 86% accuracy using a single attention map, providing a time-efficient supplement to literacy assessment that only takes less than a minute. Taken together, our unique approach to consider individual differences in salience models and visual attention in literacy assessments paves the way for new directions in personalized visual data communication to enhance understanding.
- Abstract(参考訳): 個人差の会計は、可視化設計の有効性を向上させることができる。
可視化解釈における視覚的注意の役割はよく認識されているが、既存の研究はしばしば、視覚的リテラシーレベルに基づいて、この振る舞いがどのように変化するかを見落としている。
3つの可視化テスト(mini-VLAT, CALVI, SGL)をカバーする235名のユーザスタディのデータに基づいて、視覚データ探索における注意パターンが、参加者のリテラシーレベルと相関することを示した。
次に、これらの洞察を利用する2つの計算モデルを提案する: Lit2Sal - 視覚的リテラシーレベルから観察者の注意を予測できる新しい視覚的サリエンシモデル、そして人間の視覚的アテンションデータから視覚的リテラシーを予測するモデルSal2Lit。
定量的および定性的な評価は、Lit2Salがリテラシーに配慮した最先端のサリエンシモデルより優れていることを示す。
Sal2Litは1つの注意マップを使って86%の精度でリテラシーを予測する。
個別のサリエンスモデルの違いやリテラシー評価における視覚的注意を考慮すべきという我々のユニークなアプローチは、パーソナライズされた視覚データ通信における新たな方向の道を開くことで理解を深めるものである。
関連論文リスト
- VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
textbfVLM2-Benchは視覚言語モデルが視覚的にマッチングの手がかりをリンクできるかどうかを評価するためのベンチマークである。
12個のVLMの包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。
視覚的な手がかりをリンクするモデルの能力において重要な課題を特定し、大きなパフォーマンスギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。