論文の概要: In the Eye of the Beholder: Gaze and Actions in First Person Video
- arxiv url: http://arxiv.org/abs/2006.00626v2
- Date: Sat, 31 Oct 2020 05:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:58:39.603837
- Title: In the Eye of the Beholder: Gaze and Actions in First Person Video
- Title(参考訳): 株主の目で見る:初対人ビデオにおける視線と行動
- Authors: Yin Li, Miao Liu, James M. Rehg
- Abstract要約: 本研究では,ヘッドウーンカメラで撮影した映像の分析に基づいて,人が何をしているか,どこに見ているのかを共同で決定する課題に対処する。
私たちのデータセットには、ビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれています。
第一人物視における共同視線推定と行動認識のための新しい深層モデルを提案する。
- 参考スコア(独自算出の注目度): 30.54510882243602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the task of jointly determining what a person is doing and where
they are looking based on the analysis of video captured by a headworn camera.
To facilitate our research, we first introduce the EGTEA Gaze+ dataset. Our
dataset comes with videos, gaze tracking data, hand masks and action
annotations, thereby providing the most comprehensive benchmark for First
Person Vision (FPV). Moving beyond the dataset, we propose a novel deep model
for joint gaze estimation and action recognition in FPV. Our method describes
the participant's gaze as a probabilistic variable and models its distribution
using stochastic units in a deep network. We further sample from these
stochastic units, generating an attention map to guide the aggregation of
visual features for action recognition. Our method is evaluated on our EGTEA
Gaze+ dataset and achieves a performance level that exceeds the
state-of-the-art by a significant margin. More importantly, we demonstrate that
our model can be applied to larger scale FPV dataset---EPIC-Kitchens even
without using gaze, offering new state-of-the-art results on FPV action
recognition.
- Abstract(参考訳): 頭部カメラで撮影された映像の分析に基づいて、人物が何をしているか、どこを見ているのかを共同で決定するタスクに対処する。
本稿では,EGTEA Gaze+データセットについて紹介する。
当社のデータセットにはビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれており、ファーストパーソンビジョン(fpv)の最も包括的なベンチマークを提供します。
データセットを超えて、FPVにおける共同視線推定と行動認識のための新しいディープモデルを提案する。
本手法では,参加者の視線を確率変数として表現し,その分布をディープネットワーク内の確率単位を用いてモデル化する。
これらの確率単位からさらにサンプルを採取し,行動認識のための視覚的特徴の集約を導くための注意マップを作成した。
提案手法はEGTEA Gaze+データセットを用いて評価し,その性能レベルが最先端よりも大幅に向上することを示す。
さらに,このモデルが大規模fpvデータセットに適用可能であることを実証する。--epic-kitchensは視線を使わずに,fpvアクション認識に関する最新結果を新たに提供する。
関連論文リスト
- GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Open-Vocabulary Object Detection via Scene Graph Discovery [53.27673119360868]
オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
OV検出にシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
論文 参考訳(メタデータ) (2023-07-07T00:46:19Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Visual Object Tracking in First Person Vision [33.62651949312872]
この研究は、150の濃密な注釈付きビデオシーケンスからなる新しいベンチマークデータセットであるTREK-150の導入によって実現された。
その結果、FPVにおける物体追跡は、現在の視覚トラッカーに新たな課題をもたらすことが示された。
論文 参考訳(メタデータ) (2022-09-27T16:18:47Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Is First Person Vision Challenging for Object Tracking? [32.64792520537041]
ファースト・パーソナリティ・ビジョン(FPV)における物体追跡に関する最初の体系的研究について述べる。
本研究は,近年の視覚トラッカーとベースライン型FPVトラッカーの性能を,異なる側面と新たな性能指標を考慮して広範囲に解析する。
以上の結果から,FPVにおける物体追跡は困難であることが示唆された。
論文 参考訳(メタデータ) (2021-08-31T08:06:01Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。