論文の概要: ViserDex: Visual Sim-to-Real for Robust Dexterous In-hand Reorientation
- arxiv url: http://arxiv.org/abs/2604.11138v1
- Date: Mon, 13 Apr 2026 07:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.411886
- Title: ViserDex: Visual Sim-to-Real for Robust Dexterous In-hand Reorientation
- Title(参考訳): ViserDex:ロバストなデクサラスなインハンドリオリエンテーションのためのビジュアルシミュレート
- Authors: Arjun Bhardwaj, Maximum Wilder-Smith, Mayank Mittal, Vaishakh Patil, Marco Hutter,
- Abstract要約: 複雑なタスクのダイナミクスを扱うには、オブジェクトのポーズを正確に見積もる必要がある。
RGBセンシングはポーズトラッキングのためのリッチなセマンティックキューを提供するが、既存のソリューションはマルチカメラのセットアップや高価なレイトレーシングに依存している。
本稿では,3次元ガウススプラッティング(3DGS)を統合して視覚的シム-リアルギャップを埋めるモノクラーRGBの直交配向フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.303398221598739
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In-hand object reorientation requires precise estimation of the object pose to handle complex task dynamics. While RGB sensing offers rich semantic cues for pose tracking, existing solutions rely on multi-camera setups or costly ray tracing. We present a sim-to-real framework for monocular RGB in-hand reorientation that integrates 3D Gaussian Splatting (3DGS) to bridge the visual sim-to-real gap. Our key insight is performing domain randomization in the Gaussian representation space: by applying physically consistent, pre-rendering augmentations to 3D Gaussians, we generate photorealistic, randomized visual data for object pose estimation. The manipulation policy is trained using curriculum-based reinforcement learning with teacher-student distillation, enabling efficient learning of complex behaviors. Importantly, both perception and control models can be trained independently on consumer-grade hardware, eliminating the need for large compute clusters. Experiments show that the pose estimator trained with 3DGS data outperforms those trained using conventional rendering data in challenging visual environments. We validate the system on a physical multi-fingered hand equipped with an RGB camera, demonstrating robust reorientation of five diverse objects even under challenging lighting conditions. Our results highlight Gaussian splatting as a practical path for RGB-only dexterous manipulation. For videos of the hardware deployments and additional supplementary materials, please refer to the project website: https://rffr.leggedrobotics.com/works/viserdex/
- Abstract(参考訳): 複雑なタスクのダイナミクスを扱うには、オブジェクトのポーズを正確に見積もる必要がある。
RGBセンシングはポーズトラッキングのためのリッチなセマンティックキューを提供するが、既存のソリューションはマルチカメラのセットアップや高価なレイトレーシングに依存している。
3次元ガウススプラッティング(3DGS)を統合して、視覚的シム-リアルギャップを埋めるモノクラーRGBの直交配向のためのシム-トゥ-リアルフレームワークを提案する。
我々の重要な洞察は、ガウス表現空間における領域ランダム化の実行である:3Dガウスに物理的に一貫した事前レンダリング拡張を適用することにより、オブジェクトのポーズ推定のためのフォトリアリスティックなランダム化ビジュアルデータを生成する。
操作方針は、カリキュラムベースの強化学習と教師による蒸留を用いて訓練され、複雑な振る舞いの効率的な学習を可能にする。
重要なのは、認識モデルと制御モデルの両方が、コンシューマグレードのハードウェアで独立してトレーニングできることだ。
実験により、3DGSデータで訓練されたポーズ推定器は、挑戦的な視覚環境において、従来のレンダリングデータを使用して訓練された場合よりも優れていた。
我々は,RGBカメラを装備した物理的多指ハンドを用いて,難解な照明条件下であっても5つの多指物体の頑健な再配向を実証した。
以上の結果から,ガウススプラッティングはRGBのみのデキスタラス操作の実践的方法として注目されている。
ハードウェアデプロイメントと追加の資料のビデオについては、プロジェクトのWebサイトを参照してください。
関連論文リスト
- GaussExplorer: 3D Gaussian Splatting for Embodied Exploration and Reasoning [55.826192239140596]
GaussExplorerは3D Gaussian Splatting(3DGS)上に構築されたボディード探索と推論のためのフレームワークである
3DGS上に視覚言語モデル(VLM)を導入し、3Dシーン内で質問駆動探索と推論を可能にする。
論文 参考訳(メタデータ) (2026-01-19T15:17:58Z) - GVSynergy-Det: Synergistic Gaussian-Voxel Representations for Multi-View 3D Object Detection [18.809986709717446]
画像に基づく3Dオブジェクト検出は、RGB画像のみを使用して3D空間内のオブジェクトを識別およびローカライズすることを目的としている。
既存の画像ベースのアプローチは、2つの重要な課題に直面している。
本稿では,GVSynergy-Detを提案する。GVSynergy-Detは,相乗的ガウス・ボクセル表現学習による3次元検出を強化するフレームワークである。
論文 参考訳(メタデータ) (2025-12-29T03:34:39Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting [15.098827709119087]
SplArtは,2組のRGB画像から調音対象を再構成し,キネマティクスを推定する,自己教師型カテゴリー認識フレームワークである。
SplArtは幾何学的自己スーパービジョンを利用して、3Dアノテーションやカテゴリ固有の事前処理を必要とせずに、困難なシナリオに効果的に対処する。
確立された、新しく提案されたベンチマークの評価と、ハンドヘルドのRGBカメラを用いた実世界のシナリオへの応用は、SplArtの最先端のパフォーマンスと実世界の実用性を実証している。
論文 参考訳(メタデータ) (2025-06-04T05:53:16Z) - Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning [28.80962812015936]
模倣学習は、ロボットに複雑な多様な操作タスクを実行するよう訓練することができるが、学習されたポリシーはトレーニング分布外の観察で不安定である。
本稿では,キャリブレーションされたRGBDカメラのデータを任意のILアルゴリズムの条件付けとして使用できるベクトルに合成する汎用3D観測エンコーダAdapt3Rを提案する。
93のシミュレーションと6つの実際のタスクを、さまざまなILアルゴリズムでエンドツーエンドにトレーニングすると、Adapt3Rはこれらのアルゴリズムの学習能力を維持しながら、新しいエボディメントやカメラのポーズへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2025-03-06T18:17:09Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。