論文の概要: Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting
- arxiv url: http://arxiv.org/abs/2307.08243v2
- Date: Sun, 17 Sep 2023 02:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:05:41.784483
- Title: Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting
- Title(参考訳): エゴセントリック3次元ハンド軌道予測のための不確実性認識状態空間トランス
- Authors: Wentao Bao, Lele Chen, Libing Zeng, Zhong Li, Yi Xu, Junsong Yuan, Yu
Kong
- Abstract要約: ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
- 参考スコア(独自算出の注目度): 79.34357055254239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand trajectory forecasting from egocentric views is crucial for enabling a
prompt understanding of human intentions when interacting with AR/VR systems.
However, existing methods handle this problem in a 2D image space which is
inadequate for 3D real-world applications. In this paper, we set up an
egocentric 3D hand trajectory forecasting task that aims to predict hand
trajectories in a 3D space from early observed RGB videos in a first-person
view. To fulfill this goal, we propose an uncertainty-aware state space
Transformer (USST) that takes the merits of the attention mechanism and
aleatoric uncertainty within the framework of the classical state-space model.
The model can be further enhanced by the velocity constraint and visual prompt
tuning (VPT) on large vision transformers. Moreover, we develop an annotation
workflow to collect 3D hand trajectories with high quality. Experimental
results on H2O and EgoPAT3D datasets demonstrate the superiority of USST for
both 2D and 3D trajectory forecasting. The code and datasets are publicly
released: https://actionlab-cv.github.io/EgoHandTrajPred.
- Abstract(参考訳): 自我中心の視点から手の動きを予測することは、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
しかし,既存の手法では実世界の3次元アプリケーションでは不十分な2次元画像空間でこの問題に対処している。
本稿では,早期に観察されたRGBビデオから3次元空間における手の動きを予測することを目的とした,エゴセントリックな3次元手指軌跡予測タスクを構築した。
この目的を達成するために,古典的状態空間モデルの枠組みにおける注意機構とアレエータ的不確かさの利点を活かした不確実性認識状態空間トランスフォーマ(usst)を提案する。
このモデルは、大きな視覚トランスフォーマーの速度制約と視覚プロンプトチューニング(vpt)によってさらに強化することができる。
さらに,高品質な3次元ハンドトラジェクトリを収集するためのアノテーションワークフローを開発する。
H2OとEgoPAT3Dデータセットの実験結果は、2次元および3次元軌跡予測におけるUSSTの優位性を示している。
コードとデータセットは、https://actionlab-cv.github.io/egohandtrajpred。
関連論文リスト
- Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [84.60008381280286]
GaussRenderは、Voxelベースの監視を強化する3Dから2Dへのプラグアンドプレイのリジェクション損失である。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして活用する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
視覚に基づく3Dセマンティック占有予測は、LiDARベースのアプローチを好んで、ますます見落としている。
本研究では、時間的コヒーレントな3Dセマンティック占有度を予測するために設計されたトランスフォーマーアーキテクチャであるS2TPVFormerを紹介する。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。