論文の概要: MIDAS: Deep learning human action intention prediction from natural eye
movement patterns
- arxiv url: http://arxiv.org/abs/2201.09135v1
- Date: Sat, 22 Jan 2022 21:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 15:26:14.474587
- Title: MIDAS: Deep learning human action intention prediction from natural eye
movement patterns
- Title(参考訳): MIDAS:自然眼球運動パターンによる人間の行動意図の深層学習
- Authors: Paul Festor, Ali Shafti, Alex Harston, Michey Li, Pavel Orlov, A. Aldo
Faisal
- Abstract要約: 自然視のみに基づく対象操作タスクに対する人間の意図をデコードするための、完全にデータ駆動型アプローチを提案する。
以上の結果から,自然な視線と相対位置から純粋に人間の動きの意図を911.9%の精度で復号できることが示唆された。
- 参考スコア(独自算出の注目度): 6.557082555839739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye movements have long been studied as a window into the attentional
mechanisms of the human brain and made accessible as novelty style
human-machine interfaces. However, not everything that we gaze upon, is
something we want to interact with; this is known as the Midas Touch problem
for gaze interfaces. To overcome the Midas Touch problem, present interfaces
tend not to rely on natural gaze cues, but rather use dwell time or gaze
gestures. Here we present an entirely data-driven approach to decode human
intention for object manipulation tasks based solely on natural gaze cues. We
run data collection experiments where 16 participants are given manipulation
and inspection tasks to be performed on various objects on a table in front of
them. The subjects' eye movements are recorded using wearable eye-trackers
allowing the participants to freely move their head and gaze upon the scene. We
use our Semantic Fovea, a convolutional neural network model to obtain the
objects in the scene and their relation to gaze traces at every frame. We then
evaluate the data and examine several ways to model the classification task for
intention prediction. Our evaluation shows that intention prediction is not a
naive result of the data, but rather relies on non-linear temporal processing
of gaze cues. We model the task as a time series classification problem and
design a bidirectional Long-Short-Term-Memory (LSTM) network architecture to
decode intentions. Our results show that we can decode human intention of
motion purely from natural gaze cues and object relative position, with
$91.9\%$ accuracy. Our work demonstrates the feasibility of natural gaze as a
Zero-UI interface for human-machine interaction, i.e., users will only need to
act naturally, and do not need to interact with the interface itself or deviate
from their natural eye movement patterns.
- Abstract(参考訳): 眼球運動は、長い間、人間の脳の注意機構の窓として研究され、新しいスタイルのヒューマンマシンインタフェースとしてアクセスできるようになった。
しかし、私たちが見ているものすべてが、対話したいものではありません。これは、視線インターフェイスのmidas touch問題として知られています。
Midas Touchの問題を克服するために、現在のインターフェイスは自然の視線に頼らず、居住時間や視線ジェスチャーを使う。
本稿では,自然視の手がかりのみに基づいたオブジェクト操作タスクに対して,人間の意図をデコードするデータ駆動アプローチを提案する。
データ収集実験を行い、16人の参加者が目の前のテーブル上のさまざまなオブジェクトに対して操作や検査のタスクを施されます。
被験者の眼球運動はウェアラブルアイトラッカーを用いて記録され、参加者は自由に頭を動かしてシーンを見渡すことができる。
私たちはセマンティックなfovea、畳み込みニューラルネットワークモデルを使用して、シーン内のオブジェクトと、各フレームの視線トレースとの関係を取得します。
次に、データを評価し、意図予測のための分類タスクをモデル化する方法をいくつか検討する。
評価の結果,意図予測はデータのナイーブな結果ではなく,視線の非線形時間処理に依存していることがわかった。
タスクを時系列分類問題としてモデル化し、双方向長短メモリ(LSTM)ネットワークアーキテクチャを設計して意図をデコードする。
以上の結果から,自然な視線と相対位置から純粋に人間の動きの意図を911.9\%の精度で復号できることが示唆された。
本研究は,人間と機械のインタラクションのためのゼロuiインターフェースとして,自然視が実現可能であることを示す。つまり,ユーザは自然に行動するだけでよいし,インターフェース自体とのインタラクションや,自然な眼球運動パターンから逸脱する必要はない。
関連論文リスト
- A Transformer-Based Model for the Prediction of Human Gaze Behavior on Videos [10.149523817328921]
人間の視線行動をシミュレーションする新しい手法を提案する。
我々のアプローチでは、トランスフォーマーに基づく強化学習アルゴリズムを使用して、人間のオブザーバとして機能するエージェントを訓練する。
論文 参考訳(メタデータ) (2024-04-10T21:14:33Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses [11.545286742778977]
まず、様々な人・物・人・人のインタラクション活動における眼・体の協調に関する包括的分析を報告する。
次に、畳み込みニューラルネットワークを用いて、頭部と全身のポーズから特徴を抽出する眼球運動調整モデルPose2Gazeを紹介する。
論文 参考訳(メタデータ) (2023-12-19T10:55:46Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Modeling Human Eye Movements with Neural Networks in a Maze-Solving Task [2.092312847886424]
眼球運動の深部生成モデルを構築し,眼球運動と眼球運動の融合を図った。
人間の目の動きは、できるだけ効率的にタスクを実行するのではなく、迷路を横断する物体の内部シミュレーションを実行するように最適化されたモデルによって予測される。
論文 参考訳(メタデータ) (2022-12-20T15:48:48Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。