論文の概要: DiVR: incorporating context from diverse VR scenes for human trajectory prediction
- arxiv url: http://arxiv.org/abs/2411.08409v1
- Date: Wed, 13 Nov 2024 07:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:47.185835
- Title: DiVR: incorporating context from diverse VR scenes for human trajectory prediction
- Title(参考訳): DiVR:人間の軌道予測に多様なVRシーンからコンテキストを取り入れる
- Authors: Franz Franco Gallo, Hui-Yin Wu, Lucile Sassatelli,
- Abstract要約: 本稿では,Perceiver アーキテクチャに基づくクロスモーダルトランスフォーマである DiVR (Diverse Context VR Human Motion Prediction) を提案する。
その結果、DVRは他のモデルや静的グラフと比較して精度と適応性が高いことがわかった。
ソースコードはhttps://gitlab.inria.fr/ffrancog/creattive3d-divr-modelで公開されています。
- 参考スコア(独自算出の注目度): 2.16656895298847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual environments provide a rich and controlled setting for collecting detailed data on human behavior, offering unique opportunities for predicting human trajectories in dynamic scenes. However, most existing approaches have overlooked the potential of these environments, focusing instead on static contexts without considering userspecific factors. Employing the CREATTIVE3D dataset, our work models trajectories recorded in virtual reality (VR) scenes for diverse situations including road-crossing tasks with user interactions and simulated visual impairments. We propose Diverse Context VR Human Motion Prediction (DiVR), a cross-modal transformer based on the Perceiver architecture that integrates both static and dynamic scene context using a heterogeneous graph convolution network. We conduct extensive experiments comparing DiVR against existing architectures including MLP, LSTM, and transformers with gaze and point cloud context. Additionally, we also stress test our model's generalizability across different users, tasks, and scenes. Results show that DiVR achieves higher accuracy and adaptability compared to other models and to static graphs. This work highlights the advantages of using VR datasets for context-aware human trajectory modeling, with potential applications in enhancing user experiences in the metaverse. Our source code is publicly available at https://gitlab.inria.fr/ffrancog/creattive3d-divr-model.
- Abstract(参考訳): 仮想環境は、人間の行動に関する詳細なデータを収集するためのリッチで制御された設定を提供し、ダイナミックなシーンにおける人間の軌道を予測するユニークな機会を提供する。
しかし、既存のほとんどのアプローチは、ユーザ固有の要因を考慮せずに静的なコンテキストに焦点を当て、これらの環境の可能性を見落としている。
CREATTIVE3Dデータセットを利用することで、私たちのワークモデルが仮想現実(VR)シーンで記録された軌跡を、ユーザインタラクションによる道路横断タスクや、シミュレーションされた視覚障害を含むさまざまな状況に当てはめます。
異種グラフ畳み込みネットワークを用いて静的および動的シーンコンテキストを統合した,Perceiverアーキテクチャに基づくクロスモーダルトランスフォーマであるDiverse Context VR Human Motion Prediction (DiVR)を提案する。
MLP,LSTM,トランスフォーマーなど,既存のアーキテクチャと比較して,視線と点の雲のコンテキストでDiVRを比較した広範な実験を行った。
さらに、異なるユーザ、タスク、シーン間でモデルの一般化性をテストすることも強調しています。
その結果、DVRは他のモデルや静的グラフと比較して精度と適応性が高いことがわかった。
この研究は、コンテキスト認識された人間の軌道モデリングにVRデータセットを使用することの利点を強調しており、メタバースにおけるユーザーエクスペリエンスの向上に潜在的な応用が期待できる。
ソースコードはhttps://gitlab.inria.fr/ffrancog/creattive3d-divr-modelで公開されています。
関連論文リスト
- SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - Gaze Prediction in Virtual Reality Without Eye Tracking Using Visual and Head Motion Cues [3.4383905541567583]
本稿では,HMD(Head-Mounted Display)モーション信号と映像フレームから派生した視覚的サリエンシキューを組み合わせた新しい視線予測フレームワークを提案する。
本手法では,軽量な唾液エンコーダであるUniSalを用いて視覚的特徴を抽出し,その特徴をHMDモーションデータと融合させて時系列予測モジュールで処理する。
EHTaskデータセットの実験は、商用VRハードウェアへの展開とともに、私たちのアプローチがCenter-of-HMDやMean Gazeといったベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-26T11:26:27Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - GazeProphetV2: Head-Movement-Based Gaze Prediction Enabling Efficient Foveated Rendering on Mobile VR [0.0]
本稿では,時間的視線パターン,頭部運動データ,視覚シーン情報を組み合わせたVR視線予測へのマルチモーダルアプローチを提案する。
22のVRシーンと5.3Mの視線サンプルにまたがるデータセットによる評価は、モダリティを組み合わせる際の予測精度の改善を示している。
クロスシーンの一般化テストは、予測された視線軌跡における93.1%の検証精度と時間的整合性を示す。
論文 参考訳(メタデータ) (2025-11-25T06:55:39Z) - Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - OmniRe: Omni Urban Scene Reconstruction [78.99262488964423]
OmniReはデバイス上でのログから動的現実シーンの高忠実なデジタルツインを作成するための総合システムである。
提案手法は3DGS上にシーングラフを構築し,様々な動的アクターをモデル化する標準空間内に複数のガウス表現を構築する。
論文 参考訳(メタデータ) (2024-08-29T17:56:33Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Learning from synthetic data generated with GRADE [0.6982738885923204]
本稿では,ロボット工学研究のための現実的なアニメーション動的環境(GRADE)を作成するためのフレームワークを提案する。
GRADEは、完全なシミュレーション制御、ROS統合、現実物理学をサポートし、高い視覚的忠実度画像と地上真実データを生成するエンジン内にある。
合成データのみを用いてトレーニングしても、同一のアプリケーション領域における実世界の画像によく当てはまることを示す。
論文 参考訳(メタデータ) (2023-05-07T14:13:04Z) - User-centric Heterogeneous-action Deep Reinforcement Learning for
Virtual Reality in the Metaverse over Wireless Networks [8.513938423514636]
本稿では,Metaverseサーバと複数のVRユーザで構成されるシステムについて考察する。
MetaverseのマルチユーザーVRシナリオでは、ユーザはFPS(Frames Per Second)の異なる特性と要求を持っている。
提案したユーザ中心型DRLアルゴリズムは、ユーザ中心型Critic with Heterogenous Actors (UCHA) と呼ばれる。
論文 参考訳(メタデータ) (2023-02-03T00:12:12Z) - UmeTrack: Unified multi-view end-to-end hand tracking for VR [34.352638006495326]
空間における3Dハンドポーズのリアルタイム追跡は難しい問題であり、VRインタラクションにおいて重要な役割を果たす。
本稿では,世界空間における3Dハンドポーズを直接予測する多視点多フレームハンドトラッキングのための,エンドツーエンドの識別可能な統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-31T19:09:21Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z) - AC-VRNN: Attentive Conditional-VRNN for Multi-Future Trajectory
Prediction [30.61190086847564]
条件付き変動リカレントニューラルネットワーク(C-VRNN)に基づくマルチフューチャ軌道予測のための生成アーキテクチャを提案する。
ヒューマンインタラクションは、繰り返し推定のオンライン注意深い隠れ状態改善を可能にするグラフベースのアテンションメカニズムでモデル化される。
論文 参考訳(メタデータ) (2020-05-17T17:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。