論文の概要: Egocentric Human Trajectory Forecasting with a Wearable Camera and
Multi-Modal Fusion
- arxiv url: http://arxiv.org/abs/2111.00993v1
- Date: Mon, 1 Nov 2021 14:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:30:21.029471
- Title: Egocentric Human Trajectory Forecasting with a Wearable Camera and
Multi-Modal Fusion
- Title(参考訳): ウェアラブルカメラと多モード融合による人間軌道予測
- Authors: Jianing Qiu, Lipeng Chen, Xiao Gu, Frank P.-W. Lo, Ya-Yen Tsai,
Jiankai Sun, Jiaqi Liu and Benny Lo
- Abstract要約: 混雑した空間における自我中心型カメラ装着者(自我者)の軌道予測の問題に対処する。
異なるカメラ装着者のデータから得られた軌道予測能力は、視覚障害者のナビゲーションを支援するために転送することができる。
トランスフォーマーをベースとしたエンコーダ・デコーダニューラルネットワークモデルが,カメラ装着者の将来の軌道を予測するために,新しいカスケード型クロスアテンション機構と統合されている。
- 参考スコア(独自算出の注目度): 24.149925005674145
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we address the problem of forecasting the trajectory of an
egocentric camera wearer (ego-person) in crowded spaces. The trajectory
forecasting ability learned from the data of different camera wearers walking
around in the real world can be transferred to assist visually impaired people
in navigation, as well as to instill human navigation behaviours in mobile
robots, enabling better human-robot interactions. To this end, a novel
egocentric human trajectory forecasting dataset was constructed, containing
real trajectories of people navigating in crowded spaces wearing a camera, as
well as extracted rich contextual data. We extract and utilize three different
modalities to forecast the trajectory of the camera wearer, i.e., his/her past
trajectory, the past trajectories of nearby people, and the environment such as
the scene semantics or the depth of the scene. A Transformer-based
encoder-decoder neural network model, integrated with a novel cascaded
cross-attention mechanism that fuses multiple modalities, has been designed to
predict the future trajectory of the camera wearer. Extensive experiments have
been conducted, and the results have shown that our model outperforms the
state-of-the-art methods in egocentric human trajectory forecasting.
- Abstract(参考訳): 本稿では,密集空間における自我中心型カメラ装着者(自我者)の軌跡予測の問題に対処する。
現実世界を歩き回るさまざまなカメラの装着者のデータから得られた軌道予測能力は、視覚障害者のナビゲーション支援や、移動ロボットにおける人間のナビゲーション行動のシミュレーション、人間とロボットのインタラクションの改善に移すことができる。
この目的のために、カメラを装着した混雑した空間を航行する人々の実際の軌跡を含む、新しいエゴセントリックな人間の軌道予測データセットを構築し、豊かな文脈データを抽出した。
我々は,カメラ装着者の過去の軌跡,近所の人々の過去の軌跡,シーンの意味やシーンの深さなどの環境を予測するために,3つの異なるモダリティを抽出し,活用する。
複数のモードを融合する新しいカスケードクロスアテンション機構を組み込んだトランスフォーマベースのエンコーダ・デコーダニューラルネットワークモデルは、カメラ装着者の将来の軌道を予測するために設計されている。
実験により,エゴセントリックな人軌道予測において,本モデルが最先端の手法より優れていることが示された。
関連論文リスト
- EgoNav: Egocentric Scene-aware Human Trajectory Prediction [15.346096596482857]
ウェアラブルなコラボレーティブロボットは、転倒防止支援を必要とする人や、外骨格を装着する人を助ける。
このようなロボットは、自我中心の視覚に基づいて周囲のシーンに常に適応し、着用者の自我の動きを予測する必要がある。
本研究では、身体に装着したカメラとセンサーを利用して、複雑な環境下での人間の着用者の軌道を予測した。
論文 参考訳(メタデータ) (2024-03-27T21:43:12Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Robots That Can See: Leveraging Human Pose for Trajectory Prediction [30.919756497223343]
本研究では,人間中心環境における未来の軌道を予測するためのトランスフォーマーアーキテクチャを提案する。
結果として得られたモデルは、将来の人間の軌道予測に固有の不確実性を捉えている。
我々は,限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し,予測誤差を低減するために3次元骨格ポーズの相補的な性質を実証する。
論文 参考訳(メタデータ) (2023-09-29T13:02:56Z) - Action-conditioned Deep Visual Prediction with RoAM, a new Indoor Human
Motion Dataset for Autonomous Robots [1.7778609937758327]
ロボット自律運動(RoAM)ビデオデータセットについて紹介する。
このロボットは、ロボットのエゴビジョンから様々な人間の動きを記録する様々な屋内環境において、カスタムメイドのタートルボット3バーガーロボットで収集される。
データセットには、LiDARスキャンの同期記録や、静的で動く人間のエージェントの周りを移動する際にロボットが取るすべての制御アクションも含まれている。
論文 参考訳(メタデータ) (2023-06-28T00:58:44Z) - COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:49:23Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - AC-VRNN: Attentive Conditional-VRNN for Multi-Future Trajectory
Prediction [30.61190086847564]
条件付き変動リカレントニューラルネットワーク(C-VRNN)に基づくマルチフューチャ軌道予測のための生成アーキテクチャを提案する。
ヒューマンインタラクションは、繰り返し推定のオンライン注意深い隠れ状態改善を可能にするグラフベースのアテンションメカニズムでモデル化される。
論文 参考訳(メタデータ) (2020-05-17T17:21:23Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。