論文の概要: Sharingan: A Transformer-based Architecture for Gaze Following
- arxiv url: http://arxiv.org/abs/2310.00816v1
- Date: Sun, 1 Oct 2023 23:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:35:40.630537
- Title: Sharingan: A Transformer-based Architecture for Gaze Following
- Title(参考訳): Sharingan: ゲイズフォローのためのトランスフォーマーベースのアーキテクチャ
- Authors: Samy Tafasca, Anshul Gupta, Jean-Marc Odobez
- Abstract要約: 本稿では,2次元視線予測のためのトランスフォーマーアーキテクチャを提案する。
本稿では,GazeFollow と VideoTarget のデータセットの最先端化について述べる。
- 参考スコア(独自算出の注目度): 14.594691605523005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze is a powerful form of non-verbal communication and social interaction
that humans develop from an early age. As such, modeling this behavior is an
important task that can benefit a broad set of application domains ranging from
robotics to sociology. In particular, Gaze Following is defined as the
prediction of the pixel-wise 2D location where a person in the image is
looking. Prior efforts in this direction have focused primarily on CNN-based
architectures to perform the task. In this paper, we introduce a novel
transformer-based architecture for 2D gaze prediction. We experiment with 2
variants: the first one retains the same task formulation of predicting a gaze
heatmap for one person at a time, while the second one casts the problem as a
2D point regression and allows us to perform multi-person gaze prediction with
a single forward pass. This new architecture achieves state-of-the-art results
on the GazeFollow and VideoAttentionTarget datasets. The code for this paper
will be made publicly available.
- Abstract(参考訳): ゲイズ(Gaze)は、人間が早期から発達する非言語コミュニケーションと社会的相互作用の強力な形態である。
このような振る舞いをモデル化することは、ロボット工学から社会学まで幅広い応用分野の恩恵を受ける重要なタスクである。
特に、Gaze followingは、画像中の人が見ている画素単位の2D位置の予測として定義される。
この方向の以前の取り組みは、主にタスクを実行するためのCNNベースのアーキテクチャに焦点を当てていた。
本稿では,2次元視線予測のためのトランスフォーマーアーキテクチャを提案する。
2つの変種を実験し、第1は1人の人の視線熱マップを1度に予測するのと同じタスクを定式化し、第2は問題を2次元の点回帰としてキャストし、1つの前方パスで複数の人物の視線予測を行う。
この新しいアーキテクチャは、GazeFollowとVideoAttentionTargetデータセットの最先端の結果を達成する。
この論文のコードは公開される予定だ。
関連論文リスト
- Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-10-25T21:40:42Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - GPRAR: Graph Convolutional Network based Pose Reconstruction and Action
Recognition for Human Trajectory Prediction [1.2891210250935146]
既存の予測モデルは、観察がしばしば騒がしい現実世界の設定でエラーを起こしやすい。
GPRARは、人間の軌道予測のためのグラフ畳み込みネットワークベースのポーズ再構築とアクション認識です。
JAADおよびTITANデータセットのノイズ観測により,GPRARは予測精度を最大22%,50%向上させることを示した。
論文 参考訳(メタデータ) (2021-03-25T20:12:14Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Socially and Contextually Aware Human Motion and Pose Forecasting [48.083060946226]
本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T06:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。