論文の概要: RoboRouter: Training-Free Policy Routing for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.07892v3
- Date: Thu, 12 Mar 2026 05:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.081051
- Title: RoboRouter: Training-Free Policy Routing for Robotic Manipulation
- Title(参考訳): RoboRouter:ロボットマニピュレーションのためのトレーニングフリーポリシールーティング
- Authors: Yiteng Chen, Zhe Cao, Hongjia Ren, Chenjie Yang, Wenbo Li, Shiyi Wang, Yemin Wang, Li Zhang, Yanming Shao, Zhenjun Zhao, Huiping Zhuang, Qingyao Wu,
- Abstract要約: 我々は、インテリジェントなポリシールーティングを通じて、既存のアプローチの補完的強みを活用することを提案する。
我々は、不均一なポリシーのプールを維持し、各タスクで最高のパフォーマンスのポリシーを選択することを学ぶ、トレーニング不要のフレームワークであるRoboを紹介した。
この結果から,不均一なオフザシェルフポリシを介するインテリジェントなルーティングが,より有能なロボットシステムを構築するための実用的でスケーラブルな経路を提供することが示された。
- 参考スコア(独自算出の注目度): 28.477634030948376
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research on robotic manipulation has developed a diverse set of policy paradigms, including vision-language-action (VLA) models, vision-action (VA) policies, and code-based compositional approaches. Concrete policies typically attain high success rates on specific task distributions but lim-ited generalization beyond it. Rather than proposing an other monolithic policy, we propose to leverage the complementary strengths of existing approaches through intelligent policy routing. We introduce RoboRouter, a training-free framework that maintains a pool of heterogeneous policies and learns to select the best-performing policy for each task through accumulated execution experience. Given a new task, RoboRouter constructs a semantic task representation, retrieves historical records of similar tasks, predicts the optimal policy choice without requiring trial-and-error, and incorporates structured feedback to refine subsequent routing decisions. Integrating a new policy into the system requires only lightweight evaluation and incurs no training overhead. Across simulation benchmark and real-world evaluations, RoboRouter consistently outperforms than in-dividual policies, improving average success rate by more than 3% in simulation and over 13% in real-world settings, while preserving execution efficiency. Our results demonstrate that intelligent routing across heterogeneous, off-the-shelf policies provides a practical and scalable pathway toward building more capable robotic systems.
- Abstract(参考訳): ロボット操作の研究は、視覚言語アクション(VLA)モデル、視覚アクション(VA)ポリシー、コードベースのコンポジションアプローチなど、さまざまなポリシーパラダイムを開発した。
具体的な政策は、通常、特定のタスク分布において高い成功率を得るが、それ以外は限定的な一般化である。
他のモノリシックなポリシーを提案するのではなく、インテリジェントなポリシールーティングを通じて既存のアプローチの補完的な強みを活用することを提案する。
我々は、不均一なポリシーのプールを維持し、蓄積された実行経験を通して各タスクの最高のパフォーマンスポリシーを選択することを学ぶ、トレーニング不要のフレームワークであるRoboRouterを紹介した。
新しいタスクが与えられた後、RoboRouterはセマンティックタスク表現を構築し、同様のタスクの履歴レコードを検索し、トライ・アンド・エラーを必要とせずに最適なポリシー選択を予測し、構造化されたフィードバックを組み込んで、その後のルーティング決定を洗練する。
新しいポリシーをシステムに統合するには、軽量な評価だけで、トレーニングのオーバーヘッドは発生しない。
シミュレーションベンチマークと実世界の評価を通じて、RoboRouterは、個別のポリシーよりも一貫してパフォーマンスを向上し、シミュレーションにおける平均成功率を3%以上改善し、実世界の設定では13%以上向上し、実行効率を保っている。
この結果から,不均一なオフザシェルフポリシを介するインテリジェントなルーティングが,より有能なロボットシステムを構築するための実用的でスケーラブルな経路を提供することが示された。
関連論文リスト
- Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Anomaly Detection for Scalable Task Grouping in Reinforcement
Learning-based RAN Optimization [13.055378785343335]
多数の細胞にまたがってうまく機能する学習モデルの訓練と維持は、関連する問題となっている。
本稿では,多数のセルサイトにわたるRAN最適化を実現するための拡張学習政策バンクを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:05:17Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies [0.0]
ポリシー最適化は、タスク固有の目的の関数としてロボットポリシーを適用するための、事実上のパラダイムである。
本稿では,最適輸送問題として政策最適化を適用することで,確率的政策の構造を活用することを提案する。
我々は,ロボットの動作の到達,衝突回避行動,マルチゴールタスクなど,一般的なロボット設定に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-17T17:48:24Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。