論文の概要: Joint Hand Motion and Interaction Hotspots Prediction from Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2204.01696v1
- Date: Mon, 4 Apr 2022 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:17:09.072647
- Title: Joint Hand Motion and Interaction Hotspots Prediction from Egocentric
Videos
- Title(参考訳): エゴセントリックビデオによる手の動きと相互作用ホットスポット予測
- Authors: Shaowei Liu, Subarna Tripathi, Somdeb Majumdar, Xiaolong Wang
- Abstract要約: 我々は、エゴセントリックなビデオから将来の手-物間相互作用を予測する。
動作ラベルや画素を予測する代わりに,次のアクティブオブジェクトの移動軌跡と将来の接触点を直接予測する。
我々のモデルはトランスフォーマーの自己認識機構を介して手動と物体の相互作用推論を行う。
- 参考スコア(独自算出の注目度): 13.669927361546872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to forecast future hand-object interactions given an egocentric
video. Instead of predicting action labels or pixels, we directly predict the
hand motion trajectory and the future contact points on the next active object
(i.e., interaction hotspots). This relatively low-dimensional representation
provides a concrete description of future interactions. To tackle this task, we
first provide an automatic way to collect trajectory and hotspots labels on
large-scale data. We then use this data to train an Object-Centric Transformer
(OCT) model for prediction. Our model performs hand and object interaction
reasoning via the self-attention mechanism in Transformers. OCT also provides a
probabilistic framework to sample the future trajectory and hotspots to handle
uncertainty in prediction. We perform experiments on the Epic-Kitchens-55,
Epic-Kitchens-100, and EGTEA Gaze+ datasets, and show that OCT significantly
outperforms state-of-the-art approaches by a large margin. Project page is
available at https://stevenlsw.github.io/hoi-forecast .
- Abstract(参考訳): エゴセントリックビデオが与える将来的なハンドオブジェクトインタラクションを予測することを提案する。
アクションラベルやピクセルを予測する代わりに、次のアクティブオブジェクト(相互作用ホットスポット)上の手の動き軌跡と将来の接触点を直接予測する。
この比較的低次元の表現は、将来の相互作用の具体的な記述を提供する。
この課題に取り組むために、まず、大規模データ上で軌道やホットスポットのラベルを自動的に収集する方法を提供する。
次に、このデータを使用して、予測のためにObject-Centric Transformer(OCT)モデルをトレーニングします。
我々のモデルはトランスフォーマーの自己認識機構を介して手動と物体の相互作用推論を行う。
OCTはまた、予測の不確実性を扱うために将来の軌道とホットスポットをサンプリングする確率的フレームワークも提供する。
我々は,Epic-Kitchens-55,Epic-Kitchens-100,EGTEA Gaze+のデータセットを用いて実験を行い,OCTが最先端のアプローチを大幅に上回ることを示す。
プロジェクトページはhttps://stevenlsw.github.io/hoi-forecast。
関連論文リスト
- AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation [14.734158936250918]
短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
論文 参考訳(メタデータ) (2024-06-03T10:57:18Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Anticipating Next Active Objects for Egocentric Videos [29.473527958651317]
本稿では,エゴセントリックなビデオクリップに対して,次のアクティブオブジェクトの位置を将来予測する問題に対処する。
本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するためのトランスフォーマーベースの自己認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-13T13:44:52Z) - Interaction Region Visual Transformer for Egocentric Action Anticipation [18.873728614415946]
本研究では,エゴセントリックな行動予測のための人間と物体の相互作用を表現する新しい手法を提案する。
空間的クロスアテンションを用いた手と物体の相互作用をモデル化する。
次に,トラジェクトリ・クロス・アテンションを用いてコンテキスト情報を注入し,環境に合った対話トークンを得る。
これらのトークンを用いて,アクション予測のためのインタラクション中心のビデオ表現を構築する。
論文 参考訳(メタデータ) (2022-11-25T15:00:51Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Large Scale Interactive Motion Forecasting for Autonomous Driving : The
Waymo Open Motion Dataset [84.3946567650148]
10万枚以上のシーンが10Hzで20秒に渡り、私たちの新しいデータセットには1750kmの道路上の570時間以上のユニークなデータが含まれています。
高精度な3d自動ラベルシステムを用いて,道路エージェント毎に高品質な3dバウンディングボックスを生成する。
シングルエージェントとジョイントエージェントの相互作用運動予測モデルの両方を総合的に評価する新しいメトリクスセットを紹介します。
論文 参考訳(メタデータ) (2021-04-20T17:19:05Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。