論文の概要: RoboPocket: Improve Robot Policies Instantly with Your Phone
- arxiv url: http://arxiv.org/abs/2603.05504v2
- Date: Fri, 06 Mar 2026 06:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.08965
- Title: RoboPocket: Improve Robot Policies Instantly with Your Phone
- Title(参考訳): RoboPocket:スマートフォンでロボットのポリシーを即時に改善
- Authors: Junjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, Chuan Wen, Cewu Lu,
- Abstract要約: 模倣学習のスケーリングは、データ収集の効率によって制限される。
本稿では,ロボットフリーのインスタントポリシーを実現するポータブルシステムであるRoboPocketを紹介する。
- 参考スコア(独自算出の注目度): 47.930515808607446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling imitation learning is fundamentally constrained by the efficiency of data collection. While handheld interfaces have emerged as a scalable solution for in-the-wild data acquisition, they predominantly operate in an open-loop manner: operators blindly collect demonstrations without knowing the underlying policy's weaknesses, leading to inefficient coverage of critical state distributions. Conversely, interactive methods like DAgger effectively address covariate shift but rely on physical robot execution, which is costly and difficult to scale. To reconcile this trade-off, we introduce RoboPocket, a portable system that enables Robot-Free Instant Policy Iteration using single consumer smartphones. Its core innovation is a Remote Inference framework that visualizes the policy's predicted trajectory via Augmented Reality (AR) Visual Foresight. This immersive feedback allows collectors to proactively identify potential failures and focus data collection on the policy's weak regions without requiring a physical robot. Furthermore, we implement an asynchronous Online Finetuning pipeline that continuously updates the policy with incoming data, effectively closing the learning loop in minutes. Extensive experiments demonstrate that RoboPocket adheres to data scaling laws and doubles the data efficiency compared to offline scaling strategies, overcoming their long-standing efficiency bottleneck. Moreover, our instant iteration loop also boosts sample efficiency by up to 2$\times$ in distributed environments a small number of interactive corrections per person. Project page and videos: https://robo-pocket.github.io.
- Abstract(参考訳): 模倣学習のスケーリングは、データ収集の効率によって基本的に制限される。
ハンドヘルドインターフェースは、Wildデータ取得のスケーラブルなソリューションとして登場したが、主にオープンループ方式で運用されている: オペレータは、基礎となるポリシーの弱点を知らずに、デモを盲目的に収集する。
逆にDAggerのようなインタラクティブな手法は、共変量シフトに効果的に対処するが、物理的ロボットの実行に依存している。
本稿では,ロボットフリーのインスタントポリシーイテレーションを実現するポータブルシステムであるRoboPocketを紹介する。
その中心となるイノベーションは、Augmented Reality (AR) Visual Foresightを通じてポリシーの予測軌道を視覚化するリモート推論フレームワークである。
この没入的なフィードバックにより、コレクタは潜在的な障害を積極的に識別し、物理的なロボットを必要とせずにポリシーの弱い領域にデータ収集を集中することができる。
さらに、非同期なオンラインファインタニングパイプラインを実装し、入ってくるデータでポリシーを継続的に更新し、学習ループを数分で効果的に閉じる。
大規模な実験では、RoboPocketがデータスケーリングの法則に準拠し、オフラインのスケーリング戦略と比較してデータの効率を2倍にし、長期にわたる効率のボトルネックを克服している。
さらに、我々のインスタントイテレーションループは、分散環境ではサンプル効率を最大2$\times$まで向上させ、1人あたりの対話的な修正を少なくします。
プロジェクトページとビデオ: https://robo-pocket.github.io.com
関連論文リスト
- End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection [10.217810309422232]
マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。
人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。
自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
論文 参考訳(メタデータ) (2025-10-31T16:12:02Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Tool-as-Interface: Learning Robot Policies from Observing Human Tool Use [20.644849892016122]
ツール使用に関する知識を人間からロボットに伝達するフレームワークを提案する。
さまざまなツール・ユース・タスクにまたがってフレームワークの有効性を実証する。
本手法は遠隔操作による拡散政策よりもタスク成功率を71%向上させる。
論文 参考訳(メタデータ) (2025-04-06T20:40:19Z) - Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。