論文の概要: A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction
- arxiv url: http://arxiv.org/abs/2403.10511v1
- Date: Fri, 15 Mar 2024 17:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:01:36.197357
- Title: A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction
- Title(参考訳): マルチパーソン時間的視線追跡と社会的視線予測のための新しい枠組み
- Authors: Anshul Gupta, Samy Tafasca, Arya Farkhondeh, Pierre Vuillecard, Jean-Marc Odobez,
- Abstract要約: 現場のすべての人々の視線目標と社会的視線ラベルを共同で予測する新しい枠組みを導入する。
i) 個人に関連する視線情報をキャプチャする個人固有のトークンを処理する、時間的、トランスフォーマーベースのアーキテクチャ。
我々は,VSGazeでトレーニングしたモデルで全てのタスクを共同で処理できることを示し,マルチパーソナライズされた視線追跡と社会的視線予測の最先端結果を得た。
- 参考スコア(独自算出の注目度): 11.342075103251572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze following and social gaze prediction are fundamental tasks providing insights into human communication behaviors, intent, and social interactions. Most previous approaches addressed these tasks separately, either by designing highly specialized social gaze models that do not generalize to other social gaze tasks or by considering social gaze inference as an ad-hoc post-processing of the gaze following task. Furthermore, the vast majority of gaze following approaches have proposed static models that can handle only one person at a time, therefore failing to take advantage of social interactions and temporal dynamics. In this paper, we address these limitations and introduce a novel framework to jointly predict the gaze target and social gaze label for all people in the scene. The framework comprises of: (i) a temporal, transformer-based architecture that, in addition to image tokens, handles person-specific tokens capturing the gaze information related to each individual; (ii) a new dataset, VSGaze, that unifies annotation types across multiple gaze following and social gaze datasets. We show that our model trained on VSGaze can address all tasks jointly, and achieves state-of-the-art results for multi-person gaze following and social gaze prediction.
- Abstract(参考訳): 視線追跡と社会的視線予測は、人間のコミュニケーション行動、意図、社会的相互作用に関する洞察を提供する基本的なタスクである。
従来のほとんどのアプローチでは、他の社会的視線タスクに一般化しない高度に専門化された社会的視線モデルを設計するか、社会的視線推論を後続の視線タスクのアドホックな後処理として考慮することで、これらの課題に別々に対処していた。
さらに、以下のアプローチの大多数は、一度に1人しか扱えない静的モデルを提案しており、社会的相互作用や時間的ダイナミクスを生かしていない。
本稿では,これらの制約に対処し,現場のすべての人々の視線目標と社会的視線ラベルを共同で予測する新しい枠組みを提案する。
フレームワークは:
一 画像トークンの他に、各個人に関する視線情報を捉えた人固有のトークンを取り扱う時間的変換型建築
(ii) 新しいデータセットであるVSGazeは、複数のギャンブルフォローとソーシャルギャンブルデータセットにまたがるアノテーションタイプを統一する。
我々は,VSGazeでトレーニングしたモデルで全てのタスクを共同で処理できることを示し,マルチパーソナライズされた視線追跡と社会的視線予測の最先端結果を得た。
関連論文リスト
- Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses [11.545286742778977]
まず、様々な人・物・人・人のインタラクション活動における眼・体の協調に関する包括的分析を報告する。
次に、畳み込みニューラルネットワークを用いて、頭部と全身のポーズから特徴を抽出する眼球運動調整モデルPose2Gazeを紹介する。
論文 参考訳(メタデータ) (2023-12-19T10:55:46Z) - Sharingan: A Transformer-based Architecture for Gaze Following [14.594691605523005]
本稿では,2次元視線予測のためのトランスフォーマーアーキテクチャを提案する。
本稿では,GazeFollow と VideoTarget のデータセットの最先端化について述べる。
論文 参考訳(メタデータ) (2023-10-01T23:14:54Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Didn't see that coming: a survey on non-verbal social human behavior
forecasting [47.99589136455976]
近年,非言語的社会的行動予測が研究コミュニティの関心を集めている。
人間とロボットの相互作用や社会的に認識された人間のモーション生成への直接的な応用は、非常に魅力的な分野である。
本稿では,複数の対話エージェントに対する行動予測問題を,社会的信号予測と人間の動作予測の分野の統合を目的とした汎用的な方法で定義する。
論文 参考訳(メタデータ) (2022-03-04T18:25:30Z) - SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian
Trajectory Prediction [59.064925464991056]
ソーシャルソフトアテンショングラフ畳み込みネットワーク(SSAGCN)という新しい予測モデルを提案する。
SSAGCNは、歩行者間の社会的相互作用と歩行者と環境間のシーンインタラクションを同時に扱うことを目的としている。
公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。
論文 参考訳(メタデータ) (2021-12-05T01:49:18Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。