論文の概要: RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks
- arxiv url: http://arxiv.org/abs/2603.11558v1
- Date: Thu, 12 Mar 2026 05:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.909141
- Title: RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks
- Title(参考訳): RoboClaw: スケーラブルな長距離ロボットタスクのためのエージェントフレームワーク
- Authors: Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu,
- Abstract要約: データ収集、ポリシー学習、タスク実行を単一のVLM駆動コントローラで統合するエージェントロボットフレームワークであるRoboClawを提案する。
ポリシーレベルでは、RoboClaw氏はEntangled Action Pairs(EAP)を紹介している。
デプロイ中、同じエージェントが高レベルの推論を行い、学習されたポリシープリミティブを動的にオーケストレーションして長期のタスクを遂行する。
- 参考スコア(独自算出の注目度): 28.827331437876452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) systems have shown strong potential for language-driven robotic manipulation. However, scaling them to long-horizon tasks remains challenging. Existing pipelines typically separate data collection, policy learning, and deployment, resulting in heavy reliance on manual environment resets and brittle multi-policy execution. We present RoboClaw, an agentic robotics framework that unifies data collection, policy learning, and task execution under a single VLM-driven controller. At the policy level, RoboClaw introduces Entangled Action Pairs (EAP), which couple forward manipulation behaviors with inverse recovery actions to form self-resetting loops for autonomous data collection. This mechanism enables continuous on-policy data acquisition and iterative policy refinement with minimal human intervention. During deployment, the same agent performs high-level reasoning and dynamically orchestrates learned policy primitives to accomplish long-horizon tasks. By maintaining consistent contextual semantics across collection and execution, RoboClaw reduces mismatch between the two phases and improves multi-policy robustness. Experiments in real-world manipulation tasks demonstrate improved stability and scalability compared to conventional open-loop pipelines, while significantly reducing human effort throughout the robot lifecycle, achieving a 25% improvement in success rate over baseline methods on long-horizon tasks and reducing human time investment by 53.7%.
- Abstract(参考訳): VLA(Vision-Language-Action)システムは、言語駆動型ロボット操作の強力な可能性を示している。
しかし、それを長期のタスクにスケールすることは依然として困難である。
既存のパイプラインは通常、データ収集、ポリシー学習、デプロイメントを分離し、手動の環境リセットに大きく依存する。
データ収集、ポリシー学習、タスク実行を単一のVLM駆動コントローラで統合するエージェントロボットフレームワークであるRoboClawを提案する。
ポリシーレベルでは、RoboClaw氏はEntangled Action Pairs(EAP)を紹介している。
このメカニズムは、人間の介入を最小限に抑えながら、継続的なオンラインデータ取得と反復的な政策改善を可能にする。
デプロイ中、同じエージェントが高レベルの推論を行い、学習されたポリシープリミティブを動的にオーケストレーションして長期のタスクを遂行する。
コレクションと実行間で一貫したコンテキストセマンティクスを維持することで、RoboClawは2つのフェーズ間のミスマッチを低減し、マルチポリシの堅牢性を改善する。
実世界の操作タスクの実験では、従来のオープンループパイプラインに比べて安定性とスケーラビリティが向上し、ロボットライフサイクル全体を通して人間の労力を大幅に削減し、長い水平タスクのベースラインメソッドよりも25%改善し、人間の時間投資を53.7%削減した。
関連論文リスト
- RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - RoboPocket: Improve Robot Policies Instantly with Your Phone [47.930515808607446]
模倣学習のスケーリングは、データ収集の効率によって制限される。
本稿では,ロボットフリーのインスタントポリシーを実現するポータブルシステムであるRoboPocketを紹介する。
論文 参考訳(メタデータ) (2026-03-05T18:59:38Z) - Learning-based Cooperative Robotic Paper Wrapping: A Unified Control Policy with Residual Force Control [11.21445976755808]
本稿では,大規模言語モデルを用いた高レベルタスクプランナと,低レベルのハイブリッド模倣学習と強化学習ポリシを統合した学習ベースフレームワークを提案する。
中心となるのは、人間のデモンストレーションから統一されたポリシーを学ぶサブタスク認識ロボットトランスフォーマー(START)である。
統一型トランスフォーマーベースのポリシーは、特殊なモデルの必要性を減らし、制御された人間の監督を可能にし、変形可能なオブジェクト操作に必要なきめ細かい力制御によって、高レベルの意図を効果的に橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-11-05T04:55:35Z) - RoboPilot: Generalizable Dynamic Robotic Manipulation with Dual-thinking Modes [5.47460315248808]
ロボット操作のための2つのクローズドループフレームワークであるRoboPilotを紹介する。
RoboPilotは、現実世界の動的環境における複雑なタスクに対する適応推論をサポートする。
我々はRoboPilotがタスク成功率の25.9%で最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-30T18:25:47Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。