論文の概要: Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting
- arxiv url: http://arxiv.org/abs/2307.08243v1
- Date: Mon, 17 Jul 2023 04:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:43:54.449683
- Title: Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting
- Title(参考訳): エゴセントリック3次元ハンド軌道予測のための不確実性認識状態空間トランス
- Authors: Wentao Bao, Lele Chen, Libing Zeng, Zhong Li, Yi Xu, Junsong Yuan, Yu
Kong
- Abstract要約: ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
- 参考スコア(独自算出の注目度): 91.98047246640836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand trajectory forecasting from egocentric views is crucial for enabling a
prompt understanding of human intentions when interacting with AR/VR systems.
However, existing methods handle this problem in a 2D image space which is
inadequate for 3D real-world applications. In this paper, we set up an
egocentric 3D hand trajectory forecasting task that aims to predict hand
trajectories in a 3D space from early observed RGB videos in a first-person
view. To fulfill this goal, we propose an uncertainty-aware state space
Transformer (USST) that takes the merits of the attention mechanism and
aleatoric uncertainty within the framework of the classical state-space model.
The model can be further enhanced by the velocity constraint and visual prompt
tuning (VPT) on large vision transformers. Moreover, we develop an annotation
workflow to collect 3D hand trajectories with high quality. Experimental
results on H2O and EgoPAT3D datasets demonstrate the superiority of USST for
both 2D and 3D trajectory forecasting. The code and datasets are publicly
released: https://github.com/Cogito2012/USST.
- Abstract(参考訳): 自我中心の視点から手の動きを予測することは、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
しかし,既存の手法では実世界の3次元アプリケーションでは不十分な2次元画像空間でこの問題に対処している。
本稿では,早期に観察されたRGBビデオから3次元空間における手の動きを予測することを目的とした,エゴセントリックな3次元手指軌跡予測タスクを構築した。
この目的を達成するために,古典的状態空間モデルの枠組みにおける注意機構とアレエータ的不確かさの利点を活かした不確実性認識状態空間トランスフォーマ(usst)を提案する。
このモデルは、大きな視覚トランスフォーマーの速度制約と視覚プロンプトチューニング(vpt)によってさらに強化することができる。
さらに,高品質な3次元ハンドトラジェクトリを収集するためのアノテーションワークフローを開発する。
H2OとEgoPAT3Dデータセットの実験結果は、2次元および3次元軌跡予測におけるUSSTの優位性を示している。
コードとデータセットは、https://github.com/cogito2012/usst。
関連論文リスト
- Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution [4.204990010424084]
自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。
State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。
本稿では、正面2Dカメラ画像とLiDARスキャンから特徴を抽出し、3Dセマンティック占有予測にスパース畳み込みネットワーク(Minkowski Engine)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T17:50:59Z) - Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
本研究では,時間的コヒーレントな3次元セマンティック占有予測のためのアーキテクチャ2TPVFormerを提案する。
我々は、新しい時間的相互視ハイブリッドアテンション機構を用いて、時間的手がかりを組み込むことにより、事前のプロセスを豊かにする。
実験により,3次元セマンティック・アクシデンシーにおける平均節間差は4.1%改善した。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point
Clouds [4.518012967046983]
2つの連続時間フレーム間のスパースサンプリング点の3次元空間における流れを理解することは、現代の幾何学駆動系の中核石である。
本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-10T09:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。