論文の概要: COPILOT: Human Collision Prediction and Localization from Multi-view
Egocentric Videos
- arxiv url: http://arxiv.org/abs/2210.01781v1
- Date: Tue, 4 Oct 2022 17:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 15:17:24.639987
- Title: COPILOT: Human Collision Prediction and Localization from Multi-view
Egocentric Videos
- Title(参考訳): COPILOT:多視点エゴセントリックビデオからの人間の衝突予測と位置推定
- Authors: Boxiao Pan, Bokui Shen, Davis Rempe, Despoina Paschalidou, Kaichun Mo,
Yanchao Yang, Leonidas J. Guibas
- Abstract要約: 我々は,外骨格から撮影した多視点自我中心のRGBビデオから,多様な環境下での人間とシーンの衝突を予測するという,挑戦的で斬新な問題を提案する。
環境と衝突する身体の関節を分類することにより,環境中の衝突を局所化する衝突領域のヒートマップを予測できる。
衝突予測と位置推定を同時に行うビデオトランスモデルCOPILOTを提案する。
- 参考スコア(独自算出の注目度): 62.34712951567793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To produce safe human motions, assistive wearable exoskeletons must be
equipped with a perception system that enables anticipating potential
collisions from egocentric observations. However, previous approaches to
exoskeleton perception greatly simplify the problem to specific types of
environments, limiting their scalability. In this paper, we propose the
challenging and novel problem of predicting human-scene collisions for diverse
environments from multi-view egocentric RGB videos captured from an
exoskeleton. By classifying which body joints will collide with the environment
and predicting a collision region heatmap that localizes potential collisions
in the environment, we aim to develop an exoskeleton perception system that
generalizes to complex real-world scenes and provides actionable outputs for
downstream control. We propose COPILOT, a video transformer-based model that
performs both collision prediction and localization simultaneously, leveraging
multi-view video inputs via a proposed joint space-time-viewpoint attention
operation. To train and evaluate the model, we build a synthetic data
generation framework to simulate virtual humans moving in photo-realistic 3D
environments. This framework is then used to establish a dataset consisting of
8.6M egocentric RGBD frames to enable future work on the problem. Extensive
experiments suggest that our model achieves promising performance and
generalizes to unseen scenes as well as real world. We apply COPILOT to a
downstream collision avoidance task, and successfully reduce collision cases by
29% on unseen scenes using a simple closed-loop control algorithm.
- Abstract(参考訳): 安全な人間の動きを作り出すためには、補助ウェアラブル外骨格に、自我中心の観測から潜在的な衝突を予測できる知覚システムを設ける必要がある。
しかしながら、エクソスケルトン知覚に対する以前のアプローチは、特定の種類の環境に問題を単純化し、スケーラビリティを制限した。
本稿では,外骨格から撮影した多視点自我中心のRGBビデオから,多様な環境における人間とシーンの衝突を予測することの難しさと新しい問題を提案する。
環境と衝突する身体関節を分類し, 環境中の衝突を局所化する衝突領域のヒートマップを予測することにより, 複雑な現実世界のシーンに一般化し, 下流制御のための動作可能な出力を提供する外骨格認識システムを開発することを目的とする。
本稿では,衝突予測と局所化を同時に行うビデオトランスフォーマーモデルCOPILOTを提案する。
モデルをトレーニングし,評価するために,フォトリアリスティックな3d環境内を移動する仮想人間をシミュレートする合成データ生成フレームワークを構築した。
このフレームワークは、8.6mのエゴセントリックなrgbdフレームからなるデータセットを確立するために使われます。
広範にわたる実験により,本モデルが期待できる性能を実現し,実世界だけでなく見えない場面にも一般化できることが示唆された。
本稿では,下流衝突回避タスクにCOPILOTを適用し,単純なクローズドループ制御アルゴリズムを用いて未確認シーンにおける衝突事例を29%削減することに成功した。
関連論文リスト
- Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。
本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。
シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:07:53Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。
本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文 参考訳(メタデータ) (2024-06-26T08:18:39Z) - EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。
このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。
本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文 参考訳(メタデータ) (2024-03-27T21:43:12Z) - Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。
結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。
我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文 参考訳(メタデータ) (2023-09-29T13:02:56Z) - CabiNet: Scaling Neural Collision Detection for Object Rearrangement
with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。
このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。
CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文 参考訳(メタデータ) (2023-04-18T21:09:55Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - Egocentric Human Trajectory Forecasting with a Wearable Camera and
Multi-Modal Fusion [24.149925005674145]
混雑した空間における自我中心型カメラ装着者(自我者)の軌道予測の問題に対処する。
異なるカメラ装着者のデータから得られた軌道予測能力は、視覚障害者のナビゲーションを支援するために転送することができる。
トランスフォーマーをベースとしたエンコーダ・デコーダニューラルネットワークモデルが,カメラ装着者の将来の軌道を予測するために,新しいカスケード型クロスアテンション機構と統合されている。
論文 参考訳(メタデータ) (2021-11-01T14:58:05Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。