論文の概要: A Transformer-Based Model for the Prediction of Human Gaze Behavior on Videos
- arxiv url: http://arxiv.org/abs/2404.07351v1
- Date: Wed, 10 Apr 2024 21:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:38:10.649080
- Title: A Transformer-Based Model for the Prediction of Human Gaze Behavior on Videos
- Title(参考訳): 映像における人間の視線行動予測のためのトランスフォーマーモデル
- Authors: Suleyman Ozdel, Yao Rong, Berat Mert Albaba, Yen-Ling Kuo, Xi Wang,
- Abstract要約: 人間の視線行動をシミュレーションする新しい手法を提案する。
我々のアプローチでは、トランスフォーマーに基づく強化学習アルゴリズムを使用して、人間のオブザーバとして機能するエージェントを訓練する。
- 参考スコア(独自算出の注目度): 10.149523817328921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye-tracking applications that utilize the human gaze in video understanding tasks have become increasingly important. To effectively automate the process of video analysis based on eye-tracking data, it is important to accurately replicate human gaze behavior. However, this task presents significant challenges due to the inherent complexity and ambiguity of human gaze patterns. In this work, we introduce a novel method for simulating human gaze behavior. Our approach uses a transformer-based reinforcement learning algorithm to train an agent that acts as a human observer, with the primary role of watching videos and simulating human gaze behavior. We employed an eye-tracking dataset gathered from videos generated by the VirtualHome simulator, with a primary focus on activity recognition. Our experimental results demonstrate the effectiveness of our gaze prediction method by highlighting its capability to replicate human gaze behavior and its applicability for downstream tasks where real human-gaze is used as input.
- Abstract(参考訳): 映像理解タスクにおける人間の視線を利用した視線追跡アプリケーションの重要性が高まっている。
視線追跡データに基づく映像解析のプロセスを効果的に自動化するためには、人間の視線行動を正確に再現することが重要である。
しかし、この課題は人間の視線パターンの複雑さとあいまいさによって大きな課題を生んでいる。
本研究では,人間の視線行動をシミュレーションする新しい手法を提案する。
我々のアプローチでは、トランスフォーマーに基づく強化学習アルゴリズムを用いて、人間の観察者として働くエージェントを訓練し、ビデオを見たり、人間の視線の振る舞いをシミュレートする役割を担っている。
我々は,VirtualHomeシミュレータが生成したビデオから収集した視線追跡データセットを用いて,活動認識に重点を置いた。
実験の結果,人間の視線行動の再現能力と,実際の視線を入力として使用する下流作業への適用性を強調して,視線予測手法の有効性を実証した。
関連論文リスト
- Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention [10.149523817328921]
本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。
本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。
提案手法は最先端技術より優れ、18種類の意図認識の精度が7%向上した。
論文 参考訳(メタデータ) (2024-04-10T21:03:23Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction [11.997928273335129]
既存の方法は、観測された過去の動きからのみ、身体の動きを合成している。
本稿では、人間の動きを生成する新しい視線誘導聴覚モデルであるGazeMoDiffを紹介する。
私たちの研究は、視線誘導による人間の動き予測に向けての第一歩を踏み出します。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - MIDAS: Deep learning human action intention prediction from natural eye
movement patterns [6.557082555839739]
自然視のみに基づく対象操作タスクに対する人間の意図をデコードするための、完全にデータ駆動型アプローチを提案する。
以上の結果から,自然な視線と相対位置から純粋に人間の動きの意図を911.9%の精度で復号できることが示唆された。
論文 参考訳(メタデータ) (2022-01-22T21:52:42Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z) - Human Activity Recognition Using Multichannel Convolutional Neural
Network [0.0]
人間の活動認識(HAR)は、単に人間の行動を知覚する機械の能力を指します。
本論文では,実用的行動から収集したデータに基づいて,人間の行動を区別できる教師付き学習法について述べる。
このモデルはUCI HARデータセットでテストされ、95.25%の分類精度が得られた。
論文 参考訳(メタデータ) (2021-01-17T16:48:17Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。