Fugu-MT 論文翻訳(概要): Evaluating Graphical Perception Capabilities of Vision Transformers

論文の概要: Evaluating Graphical Perception Capabilities of Vision Transformers

arxiv url: http://arxiv.org/abs/2602.18178v1
Date: Fri, 20 Feb 2026 12:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.321554
Title: Evaluating Graphical Perception Capabilities of Vision Transformers
Title（参考訳）: 視覚変換器の視覚知覚能力の評価
Authors: Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski,
Abstract要約: ViT(Vision Transformers)は、さまざまなイメージベースのタスクにおいて、畳み込みニューラルネットワーク(CNN)の強力な代替手段として登場した。我々は、CNNと人間の参加者に対して、一連の制御された視覚的知覚タスクでViTをベンチマークする。以上の結果から,ViTは視覚タスクにおいて高い性能を示すが,視覚領域における人間の視覚的知覚との整合性は限定的であることが明らかとなった。
参考スコア（独自算出の注目度）: 10.569761392079464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers, ViTs, have emerged as a powerful alternative to convolutional neural networks, CNNs, in a variety of image-based tasks. While CNNs have previously been evaluated for their ability to perform graphical perception tasks, which are essential for interpreting visualizations, the perceptual capabilities of ViTs remain largely unexplored. In this work, we investigate the performance of ViTs in elementary visual judgment tasks inspired by the foundational studies of Cleveland and McGill, which quantified the accuracy of human perception across different visual encodings. Inspired by their study, we benchmark ViTs against CNNs and human participants in a series of controlled graphical perception tasks. Our results reveal that, although ViTs demonstrate strong performance in general vision tasks, their alignment with human-like graphical perception in the visualization domain is limited. This study highlights key perceptual gaps and points to important considerations for the application of ViTs in visualization systems and graphical perceptual modeling.
Abstract（参考訳）: ViT(Vision Transformers)は、さまざまなイメージベースのタスクにおいて、畳み込みニューラルネットワーク(CNN)の強力な代替手段として登場した。これまでCNNは、視覚の解釈に欠かせないグラフィカルな知覚タスクを実行する能力で評価されてきたが、ViTの知覚能力はほとんど探索されていない。本研究では,クリーブランドとマギルの基本的な研究から着想を得た視覚的判断タスクにおける視覚的評価の精度について検討する。彼らの研究に触発されて、私たちは一連の制御された視覚的知覚タスクにおいて、CNNと人間の参加者に対してViTをベンチマークした。以上の結果から,ViTは視覚タスクにおいて高い性能を示すが,視覚領域における人間の視覚的知覚との整合性は限定的であることが明らかとなった。本研究では,視覚システムやグラフィカルパーセプチュアル・モデリングにおけるViTの適用について,重要なパーセプチュアル・ギャップと重要な考察点について述べる。

関連論文リスト

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文参考訳（メタデータ） (2024-06-22T22:43:10Z)
Gaze-Informed Vision Transformers: Predicting Driving Decisions Under Uncertainty [5.006068984003071]
ビジョントランスフォーマー(ViT)は先進的なコンピュータビジョンを持っているが、運転のような複雑なタスクにおける有効性はいまだ研究されていない。本研究は、視線を視線追跡によって捉え、不確実性の下での運転シナリオの予測精度を高めることにより、視線と視線を融合させることにより、視線を増強する。
論文参考訳（メタデータ） (2023-08-26T22:48:06Z)
What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文参考訳（メタデータ） (2022-12-13T16:55:12Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文参考訳（メタデータ） (2022-06-14T12:47:47Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。