Fugu-MT 論文翻訳(概要): COPILOT: Human-Environment Collision Prediction and Localization from Egocentric Videos

論文の概要: COPILOT: Human-Environment Collision Prediction and Localization from Egocentric Videos

arxiv url: http://arxiv.org/abs/2210.01781v2
Date: Sun, 26 Mar 2023 05:27:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 02:27:25.651049
Title: COPILOT: Human-Environment Collision Prediction and Localization from Egocentric Videos
Title（参考訳）: COPILOT:エゴセントリックビデオからの人間環境衝突予測と位置推定
Authors: Boxiao Pan, Bokui Shen, Davis Rempe, Despoina Paschalidou, Kaichun Mo, Yanchao Yang, Leonidas J. Guibas
Abstract要約: エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
参考スコア（独自算出の注目度）: 62.34712951567793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to forecast human-environment collisions from egocentric observations is vital to enable collision avoidance in applications such as VR, AR, and wearable assistive robotics. In this work, we introduce the challenging problem of predicting collisions in diverse environments from multi-view egocentric videos captured from body-mounted cameras. Solving this problem requires a generalizable perception system that can classify which human body joints will collide and estimate a collision region heatmap to localize collisions in the environment. To achieve this, we propose a transformer-based model called COPILOT to perform collision prediction and localization simultaneously, which accumulates information across multi-view inputs through a novel 4D space-time-viewpoint attention mechanism. To train our model and enable future research on this task, we develop a synthetic data generation framework that produces egocentric videos of virtual humans moving and colliding within diverse 3D environments. This framework is then used to establish a large-scale dataset consisting of 8.6M egocentric RGBD frames. Extensive experiments show that COPILOT generalizes to unseen synthetic as well as real-world scenes. We further demonstrate COPILOT outputs are useful for downstream collision avoidance through simple closed-loop control. Please visit our project webpage at https://sites.google.com/stanford.edu/copilot.
Abstract（参考訳）: エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。本研究では,ボディマウントカメラから撮影した多視点エゴセントリック映像から,多様な環境における衝突を予測するという課題について紹介する。この問題を解決するには、人間の関節が衝突するかを分類し、衝突領域のヒートマップを推定して環境中の衝突を局所化する、一般化可能な認識システムが必要である。そこで本研究では,衝突予測と局所化を同時に行うためのCOPILOTと呼ばれるトランスフォーマーモデルを提案する。そこで本研究では,仮想人間の移動・衝突映像を多種多様な3D環境下で生成する合成データ生成フレームワークを開発した。このフレームワークは、8.6mのエゴセントリックなrgbdフレームからなる大規模データセットを確立するために使われる。広汎な実験により、COPILOTは生合成だけでなく現実世界のシーンにも一般化されることが示された。さらに、単純な閉ループ制御による下流衝突回避にCOPILOT出力が有用であることを示す。プロジェクトのwebページはhttps://sites.google.com/stanford.edu/copilot.comでどうぞ。

関連論文リスト

COME: Adding Scene-Centric Forecasting Control to Occupancy World Model [18.815436110557112]
世界モデルは、環境力学をシミュレートし、合成データを生成する自律運転にとって重要である。既存の方法では、エゴ車の動きを乱すのに苦労している(シーンの進化から振り返る) 本研究では,シーン中心の座標系を利用して環境変化をエゴ運動から分離することを提案する。
論文参考訳（メタデータ） (2025-06-16T09:01:09Z)
ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting [2.0195517740356808]
本稿では,環境との衝突回避能力を高めるためのコントラスト学習モジュールECAMを紹介する。提案モジュールは既存の軌道予測モデルに統合することができ、衝突のない予測を生成する能力を向上させることができる。実験の結果,提案モジュールと一体化した場合の衝突速度は,最先端手法により著しく低下することがわかった。
論文参考訳（メタデータ） (2025-06-11T11:35:36Z)
Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文参考訳（メタデータ） (2025-02-10T17:07:53Z)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。 EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文参考訳（メタデータ） (2025-01-03T17:00:33Z)
Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文参考訳（メタデータ） (2024-06-26T08:18:39Z)
EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文参考訳（メタデータ） (2024-03-27T21:43:12Z)
NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning [67.53972459080437]
本稿では,リアルタイム,高精度,ロボットに依存しない,環境に適応しないロボットナビゲーションソリューションであるNeuPANについて述べる。 NeuPANは密結合の知覚移動フレームワークを活用し、既存のアプローチと比較して2つの重要なイノベーションを持っている。我々は,車載ロボット,車輪脚ロボット,乗用車において,実環境と実環境の両方でNeuPANを評価した。
論文参考訳（メタデータ） (2024-03-11T15:44:38Z)
Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文参考訳（メタデータ） (2023-09-29T13:02:56Z)
CabiNet: Scaling Neural Collision Detection for Object Rearrangement with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。 CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文参考訳（メタデータ） (2023-04-18T21:09:55Z)
GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文参考訳（メタデータ） (2021-12-02T18:59:54Z)
Egocentric Human Trajectory Forecasting with a Wearable Camera and Multi-Modal Fusion [24.149925005674145]
混雑した空間における自我中心型カメラ装着者(自我者)の軌道予測の問題に対処する。異なるカメラ装着者のデータから得られた軌道予測能力は、視覚障害者のナビゲーションを支援するために転送することができる。トランスフォーマーをベースとしたエンコーダ・デコーダニューラルネットワークモデルが,カメラ装着者の将来の軌道を予測するために,新しいカスケード型クロスアテンション機構と統合されている。
論文参考訳（メタデータ） (2021-11-01T14:58:05Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
Object Rearrangement Using Learned Implicit Collision Functions [61.90305371998561]
本研究では,シーン内の6DOFオブジェクトのポーズに対して,シーンとクエリ対象点の雲を受け付け,衝突を予測できる学習的衝突モデルを提案する。我々は,テーブルトップ再構成タスクにおけるモデル予測経路積分(MPPI)ポリシーの一部として,学習された衝突モデルを活用する。学習モデルは従来のパイプラインよりも優れており、シミュレーションされた衝突クエリのデータセット上では9.8%の精度で学習精度が向上している。
論文参考訳（メタデータ） (2020-11-21T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。