論文の概要: Fixating on Attention: Integrating Human Eye Tracking into Vision
Transformers
- arxiv url: http://arxiv.org/abs/2308.13969v1
- Date: Sat, 26 Aug 2023 22:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:59:00.543943
- Title: Fixating on Attention: Integrating Human Eye Tracking into Vision
Transformers
- Title(参考訳): 人間の目の動きを視覚トランスフォーマーに統合する注意点
- Authors: Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar,
Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda
- Abstract要約: この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。
我々は、人体と視覚変換器(ViT)の両方で見られるように、左右駆動決定における固定領域の重要性を確立する。
運転現場からの情報を固定データに組み込み、JSF(Joint Space-fixation)のアテンション設定を取り入れ、最後に、人が固定した地域と同じ領域でViTモデルをトレーニングするための「固定アテンション交差点」(FAX)の損失を提案する。
- 参考スコア(独自算出の注目度): 5.221681407166792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern transformer-based models designed for computer vision have
outperformed humans across a spectrum of visual tasks. However, critical tasks,
such as medical image interpretation or autonomous driving, still require
reliance on human judgments. This work demonstrates how human visual input,
specifically fixations collected from an eye-tracking device, can be integrated
into transformer models to improve accuracy across multiple driving situations
and datasets. First, we establish the significance of fixation regions in
left-right driving decisions, as observed in both human subjects and a Vision
Transformer (ViT). By comparing the similarity between human fixation maps and
ViT attention weights, we reveal the dynamics of overlap across individual
heads and layers. This overlap is exploited for model pruning without
compromising accuracy. Thereafter, we incorporate information from the driving
scene with fixation data, employing a "joint space-fixation" (JSF) attention
setup. Lastly, we propose a "fixation-attention intersection" (FAX) loss to
train the ViT model to attend to the same regions that humans fixated on. We
find that the ViT performance is improved in accuracy and number of training
epochs when using JSF and FAX. These results hold significant implications for
human-guided artificial intelligence.
- Abstract(参考訳): コンピュータビジョン用に設計された現代のトランスフォーマーベースのモデルは、視覚タスクのスペクトルで人間を上回っている。
しかし、医療画像解釈や自律運転といった重要なタスクは、人間の判断に依存する必要がある。
この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。
まず、人体と視覚変換器(ViT)の両方で観察されるように、左運転決定における固定領域の重要性を確立する。
人間の固定地図とvit注意重みの類似性を比較することで,個々の頭部と層間の重なりのダイナミクスを明らかにする。
この重複は、精度を損なうことなくモデルプルーニングに悪用される。
その後、運転シーンからの情報を固定データと一体化し、"joint space-fixation" (jsf) の注意設定を用いる。
最後に、人が固定したのと同じ領域に出席するようにViTモデルを訓練するための「固定注意交差点」(FAX)の損失を提案する。
その結果,JSFおよびFAXを用いた場合のトレーニングエポックの精度と回数が向上していることが判明した。
これらの結果は、人間誘導型人工知能にとって重要な意味を持つ。
関連論文リスト
- Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation [6.435984242701043]
車両のヘッドアップディスプレイ(HUD)のような様々な用途における透明ディスプレイ(TD)は、ユーザー体験に革命をもたらす可能性がある。
このイノベーションは、リアルタイムのヒューマンデバイスインタラクション、特に動的に変化するTDに対するユーザの視線を正確に識別し追跡する上で、大きな課題を引き起こします。
本研究では,(1)目視対象を特定し,動的に追跡する木に基づくアルゴリズム,(2)目視の深度レベルを目視追跡データから推定するマルチストリーム自己認識アーキテクチャからなる,リアルタイム目視監視のための2重頑健で効率的な体系的ソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-09T20:52:47Z) - Visualizing the loss landscape of Self-supervised Vision Transformer [53.84372035496475]
Masked Autoencoder (MAE) は、視覚変換器を用いたマスク付き画像モデリングのための代表的自己教師型アプローチとして注目されている。
我々は、MAEとRC-MAEによる自己監督型視覚変換器の損失景観を可視化し、それらを教師付きViT(Sup-ViT)と比較する。
我々の知る限りでは、この研究は、ロスランドスケープのレンズを通して自己監督型ViTを初めて調査したものだ。
論文 参考訳(メタデータ) (2024-05-28T10:54:26Z) - Simulation of a Vision Correction Display System [0.0]
本稿では,視覚障害者の視覚体験を高めるために,視覚補正ディスプレイ(VCD)のシミュレーションに焦点を当てた。
これらのシミュレーションでは、視覚力と快適さの潜在的な改善が見られる。
論文 参考訳(メタデータ) (2024-04-12T04:45:51Z) - A Transformer-Based Model for the Prediction of Human Gaze Behavior on Videos [10.149523817328921]
人間の視線行動をシミュレーションする新しい手法を提案する。
我々のアプローチでは、トランスフォーマーに基づく強化学習アルゴリズムを使用して、人間のオブザーバとして機能するエージェントを訓練する。
論文 参考訳(メタデータ) (2024-04-10T21:14:33Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。