論文の概要: COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos
- arxiv url: http://arxiv.org/abs/2210.01781v2
- Date: Sun, 26 Mar 2023 05:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:27:25.651049
- Title: COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos
- Title(参考訳): COPILOT:エゴセントリックビデオからの人間環境衝突予測と位置推定
- Authors: Boxiao Pan, Bokui Shen, Davis Rempe, Despoina Paschalidou, Kaichun Mo,
Yanchao Yang, Leonidas J. Guibas
- Abstract要約: エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 62.34712951567793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to forecast human-environment collisions from egocentric
observations is vital to enable collision avoidance in applications such as VR,
AR, and wearable assistive robotics. In this work, we introduce the challenging
problem of predicting collisions in diverse environments from multi-view
egocentric videos captured from body-mounted cameras. Solving this problem
requires a generalizable perception system that can classify which human body
joints will collide and estimate a collision region heatmap to localize
collisions in the environment. To achieve this, we propose a transformer-based
model called COPILOT to perform collision prediction and localization
simultaneously, which accumulates information across multi-view inputs through
a novel 4D space-time-viewpoint attention mechanism. To train our model and
enable future research on this task, we develop a synthetic data generation
framework that produces egocentric videos of virtual humans moving and
colliding within diverse 3D environments. This framework is then used to
establish a large-scale dataset consisting of 8.6M egocentric RGBD frames.
Extensive experiments show that COPILOT generalizes to unseen synthetic as well
as real-world scenes. We further demonstrate COPILOT outputs are useful for
downstream collision avoidance through simple closed-loop control. Please visit
our project webpage at https://sites.google.com/stanford.edu/copilot.
- Abstract(参考訳): エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本研究では,ボディマウントカメラから撮影した多視点エゴセントリック映像から,多様な環境における衝突を予測するという課題について紹介する。
この問題を解決するには、人間の関節が衝突するかを分類し、衝突領域のヒートマップを推定して環境中の衝突を局所化する、一般化可能な認識システムが必要である。
そこで本研究では,衝突予測と局所化を同時に行うためのCOPILOTと呼ばれるトランスフォーマーモデルを提案する。
そこで本研究では,仮想人間の移動・衝突映像を多種多様な3D環境下で生成する合成データ生成フレームワークを開発した。
このフレームワークは、8.6mのエゴセントリックなrgbdフレームからなる大規模データセットを確立するために使われる。
広汎な実験により、COPILOTは生合成だけでなく現実世界のシーンにも一般化されることが示された。
さらに、単純な閉ループ制御による下流衝突回避にCOPILOT出力が有用であることを示す。
プロジェクトのwebページはhttps://sites.google.com/stanford.edu/copilot.comでどうぞ。
関連論文リスト
- Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。
本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文 参考訳(メタデータ) (2024-06-26T08:18:39Z) - EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。
このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。
本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文 参考訳(メタデータ) (2024-03-27T21:43:12Z) - NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning [67.53972459080437]
本稿では,リアルタイム,高精度,ロボットに依存しない,環境に適応しないロボットナビゲーションソリューションであるNeuPANについて述べる。
NeuPANは密結合の知覚移動フレームワークを活用し、既存のアプローチと比較して2つの重要なイノベーションを持っている。
我々は,車載ロボット,車輪脚ロボット,乗用車において,実環境と実環境の両方でNeuPANを評価した。
論文 参考訳(メタデータ) (2024-03-11T15:44:38Z) - Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。
結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。
我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文 参考訳(メタデータ) (2023-09-29T13:02:56Z) - CabiNet: Scaling Neural Collision Detection for Object Rearrangement
with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。
このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。
CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文 参考訳(メタデータ) (2023-04-18T21:09:55Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - Egocentric Human Trajectory Forecasting with a Wearable Camera and
Multi-Modal Fusion [24.149925005674145]
混雑した空間における自我中心型カメラ装着者(自我者)の軌道予測の問題に対処する。
異なるカメラ装着者のデータから得られた軌道予測能力は、視覚障害者のナビゲーションを支援するために転送することができる。
トランスフォーマーをベースとしたエンコーダ・デコーダニューラルネットワークモデルが,カメラ装着者の将来の軌道を予測するために,新しいカスケード型クロスアテンション機構と統合されている。
論文 参考訳(メタデータ) (2021-11-01T14:58:05Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Object Rearrangement Using Learned Implicit Collision Functions [61.90305371998561]
本研究では,シーン内の6DOFオブジェクトのポーズに対して,シーンとクエリ対象点の雲を受け付け,衝突を予測できる学習的衝突モデルを提案する。
我々は,テーブルトップ再構成タスクにおけるモデル予測経路積分(MPPI)ポリシーの一部として,学習された衝突モデルを活用する。
学習モデルは従来のパイプラインよりも優れており、シミュレーションされた衝突クエリのデータセット上では9.8%の精度で学習精度が向上している。
論文 参考訳(メタデータ) (2020-11-21T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。