論文の概要: SFHand: A Streaming Framework for Language-guided 3D Hand Forecasting and Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2511.18127v1
- Date: Sat, 22 Nov 2025 17:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.641403
- Title: SFHand: A Streaming Framework for Language-guided 3D Hand Forecasting and Embodied Manipulation
- Title(参考訳): SFHand: 言語誘導型3Dハンド予測と身体操作のためのストリーミングフレームワーク
- Authors: Ruicong Liu, Yifei Huang, Liangyang Ouyang, Caixin Kang, Yoichi Sato,
- Abstract要約: SFHandは、言語誘導の3Dハンド予測のための最初のストリーミングフレームワークである。
SFHandは、将来の3Dハンドステートの包括的なセットを自動回帰予測する。
EgoHaFLは、同期した3Dハンドポーズと言語命令を備えた最初の大規模データセットである。
- 参考スコア(独自算出の注目度): 25.88676013839077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time 3D hand forecasting is a critical component for fluid human-computer interaction in applications like AR and assistive robotics. However, existing methods are ill-suited for these scenarios, as they typically require offline access to accumulated video sequences and cannot incorporate language guidance that conveys task intent. To overcome these limitations, we introduce SFHand, the first streaming framework for language-guided 3D hand forecasting. SFHand autoregressively predicts a comprehensive set of future 3D hand states, including hand type, 2D bounding box, 3D pose, and trajectory, from a continuous stream of video and language instructions. Our framework combines a streaming autoregressive architecture with an ROI-enhanced memory layer, capturing temporal context while focusing on salient hand-centric regions. To enable this research, we also introduce EgoHaFL, the first large-scale dataset featuring synchronized 3D hand poses and language instructions. We demonstrate that SFHand achieves new state-of-the-art results in 3D hand forecasting, outperforming prior work by a significant margin of up to 35.8%. Furthermore, we show the practical utility of our learned representations by transferring them to downstream embodied manipulation tasks, improving task success rates by up to 13.4% on multiple benchmarks. Dataset page: https://huggingface.co/datasets/ut-vision/EgoHaFL, project page: https://github.com/ut-vision/SFHand.
- Abstract(参考訳): リアルタイム3Dハンド予測は、ARやアシストロボティクスといったアプリケーションにおける流体とコンピュータの相互作用にとって重要な要素である。
しかし、既存の手法は、通常、蓄積されたビデオシーケンスへのオフラインアクセスを必要とし、タスク意図を伝える言語ガイダンスを組み込むことができないため、これらのシナリオには適していない。
これらの制限を克服するため、言語誘導型3Dハンド予測のための最初のストリーミングフレームワークであるSFHandを紹介した。
SFHandは、ビデオおよび言語命令の連続ストリームから手タイプ、2Dバウンディングボックス、3Dポーズ、軌跡を含む、将来の3Dハンドステートの包括的なセットを自動回帰的に予測する。
当社のフレームワークは,ストリーミング自動回帰アーキテクチャとROI強化メモリレイヤを組み合わせることで,手中心領域に注目しながら時間的コンテキストをキャプチャする。
そこで本研究では,3Dハンドポーズと言語命令を同期した最初の大規模データセットであるEgoHaFLについても紹介する。
我々はSFHandが3Dハンド予測において新たな最先端の成果を達成し、先行作業よりも35.8%の大幅なマージンを達成できることを実証した。
さらに、下流の操作タスクにそれらを転送し、複数のベンチマークでタスク成功率を最大13.4%向上させることにより、学習表現の実用性を示す。
Dataset page: https://huggingface.co/datasets/ut-vision/EgoHaFL, project page: https://github.com/ut-vision/SFHand.com
関連論文リスト
- E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation [11.233768932957771]
3次元流れは、シーン内の3次元粒子の動きの傾向を表す。
ManiTrendは3D粒子、視覚観察、操作動作のダイナミクスをモデル化する統合フレームワークである。
提案手法は最先端の性能を高い効率で達成する。
論文 参考訳(メタデータ) (2025-02-14T09:13:57Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。