論文の概要: Phone2Act: A Low-Cost, Hardware-Agnostic Teleoperation System for Scalable VLA Data Collection
- arxiv url: http://arxiv.org/abs/2605.01948v1
- Date: Sun, 03 May 2026 16:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.009904
- Title: Phone2Act: A Low-Cost, Hardware-Agnostic Teleoperation System for Scalable VLA Data Collection
- Title(参考訳): Phone2Act:スケーラブルなVLAデータ収集のための低コストハードウェア非依存遠隔操作システム
- Authors: Om Mandhane, Bipin Yadav, Sangeetha Prasanna Ram, Gopalakrishnan Narayanan,
- Abstract要約: Phone2Actは、コモディティスマートフォンをGoogle ARCore経由で6-DoFロボットコントローラに変換する遠隔操作フレームワークである。
収集した130回に対してGR00T-N1.5を微調整し,実世界の多段階ピック・アンド・プレイス・タスクにおいて90%の成功率を達成した。
- 参考スコア(独自算出の注目度): 0.20093531673534026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting diverse, high-quality manipulation data for Vision-Language-Action (VLA) model training remains prohibitively expensive for many research groups, as existing teleoperation frameworks rely on specialized hardware or are tightly coupled to specific robot platforms. We present Phone2Act, a low-cost, hardware-agnostic teleoperation framework that transforms a commodity smartphone into a 6-DoF robot controller via Google ARCore. Built on a modular ROS 2 architecture, Phone2Act decouples control logic from hardware specifics through interchangeable bridge nodes, supporting platforms from industrial cobots to low-cost bimanual arms without code modification. A Universal Recorder synchronizes multi-camera RGB streams with robot state feedback and exports demonstrations natively in the LeRobot dataset format, eliminating post-processing and enabling immediate VLA fine-tuning. We validate the framework by fine-tuning GR00T-N1.5 on 130 collected episodes, achieving a 90% success rate on a real-world multi-stage pick-and-place task deployed on a physical Dobot CR5.
- Abstract(参考訳): ビジョンランゲージ・アクション(VLA)モデルトレーニングのための多種多様な高品質な操作データを集めることは、既存の遠隔操作フレームワークが特別なハードウェアに依存したり、特定のロボットプラットフォームと密結合しているため、多くの研究グループにとって違法に高価である。
我々は、低コストでハードウェアに依存しない遠隔操作フレームワークであるPhone2Actを、Google ARCoreを介して、コモディティスマートフォンを6-DoFロボットコントローラに変換する。
モジュール型のROS 2アーキテクチャ上に構築されたPhone2Actは、ハードウェア仕様から交換可能なブリッジノードを通じて制御ロジックを分離する。
Universal Recorderは、マルチカメラRGBストリームとロボットの状態フィードバックを同期させ、LeRobotデータセットフォーマットでネイティブにデモをエクスポートする。
我々は,実世界のマルチステージ・ピック・アンド・プレース・タスクにおいて,実際のDobot CR5上にデプロイされた実環境において90%の成功率を達成するため,収集した130回に対してGR00T-N1.5を微調整し,その枠組みを検証した。
関連論文リスト
- DEX-Mouse: A Low-cost Portable and Universal Interface with Force Feedback for Data Collection of Dexterous Robotic Hands [4.493178295311741]
データ駆動の器用な手操作は、大規模で物理的に一貫した実演データを必要とする。
我々は,携帯型,校正不要な手持ち遠隔操作インタフェースであるDEX-Mouseを紹介した。
論文 参考訳(メタデータ) (2026-04-16T13:41:07Z) - CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation [84.82778089348285]
カメラトランスフォーマー1(Camera Transformer 1)は、カメラ軌跡を正確に推定し、空間推論の知識を映像生成に伝達する特殊モデルである。
我々のフレームワークは空間的推論とビデオ合成のギャップを埋めることに成功し、忠実で高品質なカメラ制御可能なビデオを生み出した。
論文 参考訳(メタデータ) (2026-04-10T10:43:18Z) - OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - Low-Cost Teleoperation Extension for Mobile Manipulators [0.0]
本稿では,コモディティハードウェアを用いた直感的な全身制御を実現するための,オープンソースの遠隔操作フレームワークを提案する。
我々のシステムは、カメラ制御のためのスマートフォンベースのヘッドトラッキング、両側操作のためのリードアーム、ハンズフリーベースナビゲーションのためのフットペダルを組み合わせている。
論文 参考訳(メタデータ) (2026-03-08T15:09:34Z) - MobileManiBench: Simplifying Model Verification for Mobile Manipulation [70.30578259859512]
MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。
MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
論文 参考訳(メタデータ) (2026-02-05T02:49:52Z) - XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation [2.2353859695978944]
XRoboToolkitは、OpenXR標準上に構築された拡張現実ベースのロボット遠隔操作のためのクロスプラットフォームフレームワークである。
システムは低レイテンシの立体視フィードバック、最適化に基づく逆運動学、多様なトラッキングモードをサポートする。
本稿では、高精度な操作タスクによってフレームワークの有効性を実証し、堅牢な自律性能を示すVLAモデルをトレーニングすることで、データ品質を検証する。
論文 参考訳(メタデータ) (2025-07-31T18:45:13Z) - TeleOpBench: A Simulator-Centric Benchmark for Dual-Arm Dexterous Teleoperation [50.261933845325636]
本稿では,2次元デキスタラス遠隔操作に適したシミュレータ中心のベンチマークであるTeleOpBenchを紹介する。
このベンチマークでは、(i)MoCap、(ii)VRデバイス、(iii)腕手外骨格、(iv)単眼視追跡の4つの代表的遠隔操作モードを実装している。
論文 参考訳(メタデータ) (2025-05-19T06:08:53Z) - AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI [43.451192919213455]
AhaRobotは、低コストで完全にオープンソースなデュアルアーム移動操作ロボットシステムである。
ハンドルを使って両腕とペダルをコントロールし、全身の動きを制御します。
RoboPilotは、実施シナリオにおけるリモートデータ収集用に設計されている。
論文 参考訳(メタデータ) (2025-03-13T05:34:43Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。