論文の概要: Toward a Machine Bertin: Why Visualization Needs Design Principles for Machine Cognition
- arxiv url: http://arxiv.org/abs/2602.01527v1
- Date: Mon, 02 Feb 2026 01:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.836743
- Title: Toward a Machine Bertin: Why Visualization Needs Design Principles for Machine Cognition
- Title(参考訳): マシンベルトを目指して - 可視化がマシン認知に設計原則を必要とする理由
- Authors: Brian Keith-Norambuena,
- Abstract要約: 視覚言語モデル(VLM)は、自動分析パイプラインのチャートイメージをますます消費する。
現在のアプローチでは、主にビジョンを完全にバイパスすることで、このギャップに対処しています。
本稿では、可視化分野において、異なる研究課題として、マシン指向の視覚設計を調査する必要があることを論じる。
- 参考スコア(独自算出の注目度): 0.27074235008521247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualization's design knowledge-effectiveness rankings, encoding guidelines, color models, preattentive processing rules -- derives from six decades of psychophysical studies of human vision. Yet vision-language models (VLMs) increasingly consume chart images in automated analysis pipelines, and a growing body of benchmark evidence indicates that this human-centered knowledge base does not straightforwardly transfer to machine audiences. Machines exhibit different encoding performance patterns, process images through patch-based tokenization rather than holistic perception, and fail on design patterns that pose no difficulty for humans-while occasionally succeeding where humans struggle. Current approaches address this gap primarily by bypassing vision entirely, converting charts to data tables or structured text. We argue that this response forecloses a more fundamental question: what visual representations would actually serve machine cognition well? This paper makes the case that the visualization field needs to investigate machine-oriented visual design as a distinct research problem. We synthesize evidence from VLM benchmarks, visual reasoning research, and visualization literacy studies to show that the human-machine perceptual divergence is qualitative, not merely quantitative, and critically examine the prevailing bypassing approach. We propose a conceptual distinction between human-oriented and machine-oriented visualization-not as an engineering architecture but as a recognition that different audiences may require fundamentally different design foundations-and outline a research agenda for developing the empirical foundations the field currently lacks: the beginnings of a "machine Bertin" to complement the human-centered knowledge the field already possesses.
- Abstract(参考訳): ヴィジュアライゼーションのデザイン知識効率ランキング、エンコーディングガイドライン、カラーモデル、予防的処理ルールは、人間の視覚に関する60年の精神物理学研究に由来する。
しかし、視覚言語モデル(VLM)は、自動分析パイプラインのチャートイメージをますます消費し、この人間中心の知識ベースがマシンのオーディエンスに直接移行していないことを示すベンチマークエビデンスが増えている。
マシンは、全体的な知覚よりもパッチベースのトークン化を通じて、異なるエンコーディングパフォーマンスパターン、イメージを処理し、人間が苦しむ状況でたまに成功するのに困難を伴わないデザインパターンに失敗する。
現在のアプローチでは、主にビジョンを完全にバイパスし、チャートをデータテーブルや構造化テキストに変換することで、このギャップに対処しています。
この反応は、より根本的な問題である:どんな視覚的表現が、実際にマシン認知に役立つのか?
本稿では、可視化分野において、異なる研究課題として、マシン指向の視覚設計を調査する必要があることを論じる。
我々は、VLMベンチマーク、視覚的推論研究、可視化リテラシー研究から証拠を合成し、人間と機械の知覚の相違が定性的であることを示す。
本稿では,人間指向と機械指向の可視化を工学的アーキテクチャとしてではなく,異なる観衆が根本的に異なる設計基盤を必要とすることを認識した上で,現在欠落している経験的基礎を開発するための研究課題を概説する: 分野がすでに持っている人間中心の知識を補完する「機械ベルティン」の始まりについて述べる。
関連論文リスト
- Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers [90.4459196223986]
同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへのパラダイムシフトを象徴している。
この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
論文 参考訳(メタデータ) (2025-06-30T14:48:35Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ? [5.076961098583674]
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Visual Sensation and Perception Computational Models for Deep Learning:
State of the art, Challenges and Prospects [7.949330621850412]
視覚感覚と知覚は、環境認識と理解において視覚情報を検知し、整理し、識別し、解釈する過程を指す。
視覚知覚にインスパイアされた計算モデルは、認知科学、情報科学、人工知能など多くの分野から生まれた複雑さと多様性の特徴を持つ。
論文 参考訳(メタデータ) (2021-09-08T01:51:24Z) - Diptychs of human and machine perceptions [7.41960767776045]
アルゴリズムと人間の知覚の相違を視点として視覚的創造を提案する。
我々は、ニューラルネットワークと人間の視覚的焦点の塩分マップを利用して、原画像の再解釈であるディプチッチを作成します。
論文 参考訳(メタデータ) (2020-10-12T10:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。