論文の概要: GR-Dexter Technical Report
- arxiv url: http://arxiv.org/abs/2512.24210v2
- Date: Fri, 09 Jan 2026 06:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.569518
- Title: GR-Dexter Technical Report
- Title(参考訳): GR-Dexter 技術報告
- Authors: Ruoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li,
- Abstract要約: 視覚言語アクション(VLA)モデルは、言語条件の長いロボット操作を可能にする。
本稿では,VLAに基づく汎用操作のための汎用ハードウェア・モデル・データ・フレームワークGR-Dexterについて述べる。
- 参考スコア(独自算出の注目度): 32.12634986073996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.
- Abstract(参考訳): VLA(Vision-Language-action)モデルは、言語条件のロングホライゾンロボット操作を可能にするが、既存のシステムのほとんどはグリップパーに限定されている。
VLAポリシーを高自由度(DoF)デキスタラスハンドに拡張することは、アクションスペースの拡大、頻繁なハンドオブジェクトの閉塞、実際のロボットデータ収集のコストなど、依然として困難である。
本稿では,VLAに基づく汎用操作のための汎用ハードウェア・モデル・データ・フレームワークGR-Dexterについて述べる。
提案手法は,21-DoFロボットハンドと実ロボットデータ収集のための直感的双方向遠隔操作システムと,遠隔操作型ロボット軌道と大規模視覚言語および慎重に計算されたクロスボデーメントデータセットを併用したトレーニングレシピを組み合わせる。
長時間の日常的な操作と一般化可能なピック・アンド・プレイスにまたがる実世界の評価において,GR-Dexterはドメイン内での強いパフォーマンスを実現し,目に見えない物体や見えない指示に対する堅牢性を向上させる。
GR-Dexterが、汎用的な手動ロボット操作への実践的な一歩になることを願っている。
関連論文リスト
- Cross-Hand Latent Representation for Vision-Language-Action Models [49.32460749933983]
器用な操作のための信頼性の高い視覚言語アクションモデルを訓練するには、多くのロボットハンドにわたる大規模な実演が必要である。
XL-VLAは視覚・言語・アクション・フレームワークであり,多種多様な手間で共有される潜在行動空間と統合される。
論文 参考訳(メタデータ) (2026-03-10T18:50:57Z) - DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation [14.050551792714083]
ヒューマン・イン・ザ・ループ(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。
DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T02:55:27Z) - UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data [70.96218513410454]
両面ロボットを用いた普遍的デクスタラスグリップのためのフレームワークであるUltraDexGraspを紹介する。
提案したデータ生成パイプラインは、最適化に基づくグリップ合成と計画に基づくデモ生成を統合する。
我々はUltraDexGrasp-20Mに基づいて、点雲を入力とし、一方向の注意を通してシーン特徴を集約し、制御コマンドを予測する、シンプルで効果的な把握ポリシーを開発した。
論文 参考訳(メタデータ) (2026-03-05T15:54:21Z) - DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。
DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。
ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文 参考訳(メタデータ) (2026-02-10T18:59:02Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection [10.217810309422232]
マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。
人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。
自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
論文 参考訳(メタデータ) (2025-10-31T16:12:02Z) - XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation [2.2353859695978944]
XRoboToolkitは、OpenXR標準上に構築された拡張現実ベースのロボット遠隔操作のためのクロスプラットフォームフレームワークである。
システムは低レイテンシの立体視フィードバック、最適化に基づく逆運動学、多様なトラッキングモードをサポートする。
本稿では、高精度な操作タスクによってフレームワークの有効性を実証し、堅牢な自律性能を示すVLAモデルをトレーニングすることで、データ品質を検証する。
論文 参考訳(メタデータ) (2025-07-31T18:45:13Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。