論文の概要: Vision Transformer attention alignment with human visual perception in aesthetic object evaluation
- arxiv url: http://arxiv.org/abs/2507.17616v1
- Date: Wed, 23 Jul 2025 15:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.067639
- Title: Vision Transformer attention alignment with human visual perception in aesthetic object evaluation
- Title(参考訳): 美的物体評価における視覚変換器のアライメントと人間の視覚知覚
- Authors: Miguel Carrasco, César González-Martín, José Aranda, Luis Oliveros,
- Abstract要約: 視覚的注意機構は、人間の知覚と美的評価において重要な役割を果たす。
ビジョントランスフォーマー(ViT)の最近の進歩は、コンピュータビジョンタスクにおいて顕著な能力を示している。
本研究では,手工芸品評価における視覚的注意と視覚的注意機構の相関について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual attention mechanisms play a crucial role in human perception and aesthetic evaluation. Recent advances in Vision Transformers (ViTs) have demonstrated remarkable capabilities in computer vision tasks, yet their alignment with human visual attention patterns remains underexplored, particularly in aesthetic contexts. This study investigates the correlation between human visual attention and ViT attention mechanisms when evaluating handcrafted objects. We conducted an eye-tracking experiment with 30 participants (9 female, 21 male, mean age 24.6 years) who viewed 20 artisanal objects comprising basketry bags and ginger jars. Using a Pupil Labs eye-tracker, we recorded gaze patterns and generated heat maps representing human visual attention. Simultaneously, we analyzed the same objects using a pre-trained ViT model with DINO (Self-DIstillation with NO Labels), extracting attention maps from each of the 12 attention heads. We compared human and ViT attention distributions using Kullback-Leibler divergence across varying Gaussian parameters (sigma=0.1 to 3.0). Statistical analysis revealed optimal correlation at sigma=2.4 +-0.03, with attention head #12 showing the strongest alignment with human visual patterns. Significant differences were found between attention heads, with heads #7 and #9 demonstrating the greatest divergence from human attention (p< 0.05, Tukey HSD test). Results indicate that while ViTs exhibit more global attention patterns compared to human focal attention, certain attention heads can approximate human visual behavior, particularly for specific object features like buckles in basketry items. These findings suggest potential applications of ViT attention mechanisms in product design and aesthetic evaluation, while highlighting fundamental differences in attention strategies between human perception and current AI models.
- Abstract(参考訳): 視覚的注意機構は、人間の知覚と美的評価において重要な役割を果たす。
ビジョントランスフォーマー(ViT)の最近の進歩は、コンピュータビジョンタスクにおいて顕著な能力を示してきたが、人間の視覚的注意パターンとの整合性は、特に美的文脈において未解明のままである。
本研究では,手工芸品評価における視覚的注意と視覚的注意機構の相関について検討した。
症例は30名 (女性9名, 男性21名, 平均年齢24.6歳) で, カゴ袋とショウガ瓶を含む20の工芸品を観察した。
Pupil Labsのアイトラッカーを用いて、視線パターンと人間の視覚的注意を示す熱マップを生成した。
同時に、DINO(Self-DIstillation with NO Labels)を用いた事前学習したViTモデルを用いて、同じ物体を解析し、12個の注目ヘッドから注目マップを抽出した。
種々のガウスパラメータ(sigma=0.1~3.0)にまたがるKulback-Leibler分散を用いた人間の注意分布の比較を行った。
統計学的には, sigma=2.4 +-0.03で最適相関がみられた。
注意頭では有意な差がみられ, 頭部は7位, 頭部は9位であった(p<0.05, Tukey HSD test)。
以上の結果から,ViTsは人間の注意よりもよりグローバルな注意パターンを示すが,特定の注意頭は人間の視覚的行動,特にカゴのバックルのような特定の物体の特徴を近似することができることが示唆された。
これらの知見は、製品設計と美的評価におけるViT注意機構の潜在的応用を示唆し、人間の知覚と現在のAIモデルとの注意戦略の根本的な違いを強調した。
関連論文リスト
- Visual Attention Graph [21.860357478331107]
本研究では,視覚的満足度とスキャンパスを同時に符号化するアテンショングラフという新しいアテンション表現を提案する。
注目グラフでは、意味に基づくスキャンパスはグラフ上の経路で定義され、各ノード上の固定密度を計算することでオブジェクトの正当性を得ることができる。
論文 参考訳(メタデータ) (2025-03-11T15:22:44Z) - Testing the Limits of Fine-Tuning for Improving Visual Cognition in Vision Language Models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。
我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。
タスク固有の微調整は、他の視覚的特徴を持つデータに対する堅牢な人間ライクな一般化に寄与しない。
論文 参考訳(メタデータ) (2025-02-21T18:58:30Z) - Human Gaze Boosts Object-Centered Representation Learning [7.473473243713322]
近年の自己教師型学習モデルでは、人間に比べて画像認識のタスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
論文 参考訳(メタデータ) (2025-01-06T12:21:40Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Learning from Observer Gaze:Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition [13.956664101032006]
まず,740種類の相互作用カテゴリの530,000個の固定点を含む,IGという新しい視線固定データセットを収集した。
次に、ゼロショットインタラクション指向の注意予測タスクZeroIAを紹介し、トレーニング中に遭遇しないインタラクションに対する視覚的手がかりを予測するモデルに挑戦する。
第3に、人間観測者の認知過程をエミュレートしてZeroIA問題に取り組むための対話型注意モデルIAを提案する。
論文 参考訳(メタデータ) (2024-05-16T09:34:57Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Do Transformer Models Show Similar Attention Patterns to Task-Specific
Human Gaze? [0.0]
最先端のNLPモデルにおける自己注意機能は、人間の注意と相関することが多い。
本研究では、大規模事前学習言語モデルにおける自己注意が、人間の注意の古典的認知モデルとしての課題読解における人間の眼球固定パターンの予測であるかどうかを検討する。
論文 参考訳(メタデータ) (2022-04-25T08:23:13Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。
モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文 参考訳(メタデータ) (2021-04-17T04:52:46Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。