論文の概要: SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces
- arxiv url: http://arxiv.org/abs/2604.17888v1
- Date: Mon, 20 Apr 2026 07:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.740058
- Title: SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces
- Title(参考訳): SpaceDex: 階層化されたワークスペースにおける一般化可能なデクサラスグラフ作成
- Authors: Wensheng Wang, Chuanjun Guo, Wei Wei, Tong Wu, Ning Tan,
- Abstract要約: 本研究では,制約された3次元環境におけるデクスタラス操作のための階層的フレームワークであるSpaceDexを紹介する。
高レベルでは、Vision-Language Model (VLM)プランナーがユーザの意図を解析し、ゼロショットセグメンテーションとマスクトラッキングのためのターゲットバウンディングボックスを生成する。
低レベルでは、幾何認識のグリップモード選択から腕のグローバルな軌跡制御を分離するアームハンド特徴分離ネットワークを導入する。
- 参考スコア(独自算出の注目度): 12.014535031347926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizable grasping with high-degree-of-freedom (DoF) dexterous hands remains challenging in tiered workspaces, where occlusion, narrow clearances, and height-dependent constraints are substantially stronger than in open tabletop scenes. Most existing methods are evaluated in relatively unoccluded settings and typically do not explicitly model the distinct control requirements of arm navigation and hand articulation under spatial constraints. We present SpaceDex, a hierarchical framework for dexterous manipulation in constrained 3D environments. At the high level, a Vision-Language Model (VLM) planner parses user intent, reasons about occlusion and height relations across multiple camera views, and generates target bounding boxes for zero-shot segmentation and mask tracking. This stage provides structured spatial guidance for downstream control instead of relying on single-view target selection. At the low level, we introduce an arm-hand Feature Separation Network that decouples global trajectory control for the arm from geometry-aware grasp mode selection for the hand, reducing feature interference between reaching and grasping objectives. The controller further integrates multi-view perception, fingertip tactile sensing, and a small set of recovery demonstrations to improve robustness to partial observability and off-nominal contacts. In 100 real-world trials involving over 30 unseen objects across four categories, SpaceDex achieves a 63.0\% success rate, compared with 39.0\% for a strong tabletop baseline. These results indicate that combining hierarchical spatial planning with arm-hand representation decoupling improves dexterous grasping performance in spatially constrained environments.
- Abstract(参考訳): 高次自由度(DoF)デキスタラスハンドによる一般化可能な把握は、オクルージョン、狭いクリアランス、高さ依存の制約がオープンなテーブルトップシーンよりもかなり強い、タイテッドワークスペースにおいて依然として困難である。
既存のほとんどの手法は、比較的隠蔽されていない環境で評価され、通常、空間的制約の下で腕のナビゲーションと手関節の明確な制御要件を明示的にモデル化しない。
本研究では,制約された3次元環境におけるデクスタラス操作のための階層的フレームワークであるSpaceDexを紹介する。
高いレベルでは、ビジョン・ランゲージ・モデル(VLM)プランナーは、ユーザの意図、複数のカメラビューにまたがる閉塞と高さの関係の理由を解析し、ゼロショットセグメンテーションとマスクトラッキングのためのターゲットバウンディングボックスを生成する。
このステージは、単一ビューのターゲット選択に頼るのではなく、下流制御のための構造化された空間ガイダンスを提供する。
低レベルでは、手指の幾何学的把握モード選択から腕のグローバルな軌跡制御を分離し、到達と把握の間の特徴的干渉を低減する腕手特徴分離ネットワークを導入する。
コントローラはさらに、マルチビュー知覚、指先触覚センシング、および小さなリカバリデモを統合して、部分観察性や外接点に対する堅牢性を改善する。
4つのカテゴリにまたがる30以上の未確認物体を含む現実の100の試行において、SpaceDexは63.0\%の成功率を達成し、テーブルトップベースラインの39.0\%を達成している。
これらの結果から,階層型空間計画と手指表現の疎結合を組み合わせることで,空間的制約のある環境下での空間的把握性能が向上することが示唆された。
関連論文リスト
- Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - Fast and Safe Trajectory Optimization for Mobile Manipulators With Neural Configuration Space Distance Field [34.07401865897874]
Generalized Space Fields (GCDF) は、ベースアーム結合を移動マニピュレータに拡張するために使用できる。
GCDFは、非有界空間における全体構成をエンコードする。
我々はGCDFに基づく推論を中心に,高性能な最適化解法を開発した。
論文 参考訳(メタデータ) (2026-01-26T14:55:26Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation [61.34589819350429]
視覚・言語ナビゲーション(VLN)のための学習自由フレームワークを提案する。
本フレームワークは,指示を明示的な空間的制約に分解することで,グラフ制約最適化としてナビゲーションガイダンスを定式化する。
我々のフレームワークは、新しい環境や命令セットに効果的に一般化することができ、より堅牢で自律的なナビゲーションフレームワークへの道を開くことができる。
論文 参考訳(メタデータ) (2025-09-12T17:59:58Z) - Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation [21.553363236403822]
3Dポイントクラウドセグメンテーションは、シーン内の個々のポイントにセマンティックラベルを割り当てることを目的としている。
既存の手法では、大規模なアノテーションの負担を軽減するためにデータ拡張を採用するのが一般的である。
本稿では,現実的な3次元シーン合成のための2レベル制約付きグラフ誘導型データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-30T13:25:36Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:30:47Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。