論文の概要: Fixating on Attention: Integrating Human Eye Tracking into Vision
Transformers
- arxiv url: http://arxiv.org/abs/2308.13969v1
- Date: Sat, 26 Aug 2023 22:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:59:00.543943
- Title: Fixating on Attention: Integrating Human Eye Tracking into Vision
Transformers
- Title(参考訳): 人間の目の動きを視覚トランスフォーマーに統合する注意点
- Authors: Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar,
Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda
- Abstract要約: この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。
我々は、人体と視覚変換器(ViT)の両方で見られるように、左右駆動決定における固定領域の重要性を確立する。
運転現場からの情報を固定データに組み込み、JSF(Joint Space-fixation)のアテンション設定を取り入れ、最後に、人が固定した地域と同じ領域でViTモデルをトレーニングするための「固定アテンション交差点」(FAX)の損失を提案する。
- 参考スコア(独自算出の注目度): 5.221681407166792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern transformer-based models designed for computer vision have
outperformed humans across a spectrum of visual tasks. However, critical tasks,
such as medical image interpretation or autonomous driving, still require
reliance on human judgments. This work demonstrates how human visual input,
specifically fixations collected from an eye-tracking device, can be integrated
into transformer models to improve accuracy across multiple driving situations
and datasets. First, we establish the significance of fixation regions in
left-right driving decisions, as observed in both human subjects and a Vision
Transformer (ViT). By comparing the similarity between human fixation maps and
ViT attention weights, we reveal the dynamics of overlap across individual
heads and layers. This overlap is exploited for model pruning without
compromising accuracy. Thereafter, we incorporate information from the driving
scene with fixation data, employing a "joint space-fixation" (JSF) attention
setup. Lastly, we propose a "fixation-attention intersection" (FAX) loss to
train the ViT model to attend to the same regions that humans fixated on. We
find that the ViT performance is improved in accuracy and number of training
epochs when using JSF and FAX. These results hold significant implications for
human-guided artificial intelligence.
- Abstract(参考訳): コンピュータビジョン用に設計された現代のトランスフォーマーベースのモデルは、視覚タスクのスペクトルで人間を上回っている。
しかし、医療画像解釈や自律運転といった重要なタスクは、人間の判断に依存する必要がある。
この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。
まず、人体と視覚変換器(ViT)の両方で観察されるように、左運転決定における固定領域の重要性を確立する。
人間の固定地図とvit注意重みの類似性を比較することで,個々の頭部と層間の重なりのダイナミクスを明らかにする。
この重複は、精度を損なうことなくモデルプルーニングに悪用される。
その後、運転シーンからの情報を固定データと一体化し、"joint space-fixation" (jsf) の注意設定を用いる。
最後に、人が固定したのと同じ領域に出席するようにViTモデルを訓練するための「固定注意交差点」(FAX)の損失を提案する。
その結果,JSFおよびFAXを用いた場合のトレーニングエポックの精度と回数が向上していることが判明した。
これらの結果は、人間誘導型人工知能にとって重要な意味を持つ。
関連論文リスト
- GTransPDM: A Graph-embedded Transformer with Positional Decoupling for Pedestrian Crossing Intention Prediction [6.327758022051579]
GTransPDMは多モード特徴を利用した歩行者横断意図予測のために開発された。
PIEデータセットでは92%の精度で、JAADデータセットでは87%の精度で処理速度は0.05msである。
論文 参考訳(メタデータ) (2024-09-30T12:02:17Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。
このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。
本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文 参考訳(メタデータ) (2024-03-27T21:43:12Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。