論文の概要: Gaze-Informed Vision Transformers: Predicting Driving Decisions Under Uncertainty
- arxiv url: http://arxiv.org/abs/2308.13969v2
- Date: Thu, 09 Jan 2025 20:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:41.817263
- Title: Gaze-Informed Vision Transformers: Predicting Driving Decisions Under Uncertainty
- Title(参考訳): ゲーズインフォームド・ビジョン・トランスフォーマー:不確実性の下での運転判断予測
- Authors: Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar, Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda,
- Abstract要約: ビジョントランスフォーマー(ViT)は先進的なコンピュータビジョンを持っているが、運転のような複雑なタスクにおける有効性はいまだ研究されていない。
本研究は、視線を視線追跡によって捉え、不確実性の下での運転シナリオの予測精度を高めることにより、視線と視線を融合させることにより、視線を増強する。
- 参考スコア(独自算出の注目度): 5.006068984003071
- License:
- Abstract: Vision Transformers (ViT) have advanced computer vision, yet their efficacy in complex tasks like driving remains less explored. This study enhances ViT by integrating human eye gaze, captured via eye-tracking, to increase prediction accuracy in driving scenarios under uncertainty in both real-world and virtual reality scenarios. First, we establish the significance of human eye gaze in left-right driving decisions, as observed in both human subjects and a ViT model. By comparing the similarity between human fixation maps and ViT attention weights, we reveal the dynamics of overlap across individual heads and layers. This overlap demonstrates that fixation data can guide the model in distributing its attention weights more effectively. We introduce the fixation-attention intersection (FAX) loss, a novel loss function that significantly improves ViT performance under high uncertainty conditions. Our results show that ViT, when trained with FAX loss, aligns its attention with human gaze patterns. This gaze-informed approach has significant potential for driver behavior analysis, as well as broader applications in human-centered AI systems, extending ViT's use to complex visual environments.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は先進的なコンピュータビジョンを持っているが、運転のような複雑なタスクにおける有効性はいまだ研究されていない。
この研究は、人間の視線を視線追跡によって捉え、現実と仮想現実の両方のシナリオにおける不確実性の下での運転シナリオの予測精度を高めることで、VTを強化する。
まず、人間の視線が左右の運転決定において重要であることを明らかにする。
人間の固定マップとViTの注意重みの類似性を比較することで、個々の頭や層間の重なり合いのダイナミクスを明らかにする。
この重なり合いは、固定データがより効果的に注意重みを分散する際にモデルを導くことを示している。
本稿では,不確実性の高い条件下でのViT性能を著しく向上する新規な損失関数であるFAX損失について紹介する。
以上の結果から, FAX損失のトレーニングを行うと, ViTは人間の視線パターンと一致していることが明らかとなった。
この視線インフォームドアプローチは、ドライバーの行動分析や、人間中心のAIシステムにおける広範な応用において、ViTの使用を複雑な視覚環境に拡張する大きな可能性を秘めている。
関連論文リスト
- Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation [6.435984242701043]
車両のヘッドアップディスプレイ(HUD)のような様々な用途における透明ディスプレイ(TD)は、ユーザー体験に革命をもたらす可能性がある。
このイノベーションは、リアルタイムのヒューマンデバイスインタラクション、特に動的に変化するTDに対するユーザの視線を正確に識別し追跡する上で、大きな課題を引き起こします。
本研究では,(1)目視対象を特定し,動的に追跡する木に基づくアルゴリズム,(2)目視の深度レベルを目視追跡データから推定するマルチストリーム自己認識アーキテクチャからなる,リアルタイム目視監視のための2重頑健で効率的な体系的ソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-09T20:52:47Z) - Visualizing the loss landscape of Self-supervised Vision Transformer [53.84372035496475]
Masked Autoencoder (MAE) は、視覚変換器を用いたマスク付き画像モデリングのための代表的自己教師型アプローチとして注目されている。
我々は、MAEとRC-MAEによる自己監督型視覚変換器の損失景観を可視化し、それらを教師付きViT(Sup-ViT)と比較する。
我々の知る限りでは、この研究は、ロスランドスケープのレンズを通して自己監督型ViTを初めて調査したものだ。
論文 参考訳(メタデータ) (2024-05-28T10:54:26Z) - Simulation of a Vision Correction Display System [0.0]
本稿では,視覚障害者の視覚体験を高めるために,視覚補正ディスプレイ(VCD)のシミュレーションに焦点を当てた。
これらのシミュレーションでは、視覚力と快適さの潜在的な改善が見られる。
論文 参考訳(メタデータ) (2024-04-12T04:45:51Z) - A Transformer-Based Model for the Prediction of Human Gaze Behavior on Videos [10.149523817328921]
人間の視線行動をシミュレーションする新しい手法を提案する。
我々のアプローチでは、トランスフォーマーに基づく強化学習アルゴリズムを使用して、人間のオブザーバとして機能するエージェントを訓練する。
論文 参考訳(メタデータ) (2024-04-10T21:14:33Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。