論文の概要: Fleet Policy Learning via Weight Merging and An Application to Robotic
Tool-Use
- arxiv url: http://arxiv.org/abs/2310.01362v1
- Date: Mon, 2 Oct 2023 17:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:42:21.682078
- Title: Fleet Policy Learning via Weight Merging and An Application to Robotic
Tool-Use
- Title(参考訳): 軽量化による艦隊政策学習とロボットツール利用への応用
- Authors: Lirui Wang, Kaiqing Zhang, Allan Zhou, Max Simchowitz, Russ Tedrake
- Abstract要約: フリートマージ(Fleet-merge)は、学習ポリシーで生じる対称性を考慮に入れた分散学習のインスタンス化である。
我々は,艦隊統合がメタワールド環境における50のタスクで訓練された政策の行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるフリートツールを紹介した。
- 参考スコア(独自算出の注目度): 58.5086287737653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fleets of robots ingest massive amounts of streaming data generated by
interacting with their environments, far more than those that can be stored or
transmitted with ease. At the same time, we hope that teams of robots can
co-acquire diverse skills through their experiences in varied settings. How can
we enable such fleet-level learning without having to transmit or centralize
fleet-scale data? In this paper, we investigate distributed learning of
policies as a potential solution. To efficiently merge policies in the
distributed setting, we propose fleet-merge, an instantiation of distributed
learning that accounts for the symmetries that can arise in learning policies
that are parameterized by recurrent neural networks. We show that fleet-merge
consolidates the behavior of policies trained on 50 tasks in the Meta-World
environment, with the merged policy achieving good performance on nearly all
training tasks at test time. Moreover, we introduce a novel robotic tool-use
benchmark, fleet-tools, for fleet policy learning in compositional and
contact-rich robot manipulation tasks, which might be of broader interest, and
validate the efficacy of fleet-merge on the benchmark.
- Abstract(参考訳): ロボットのフリートは、環境と対話することによって生成される大量のストリーミングデータを、簡単に保存または送信できるものよりもはるかに多く取り込む。
同時に、ロボットのチームがさまざまな環境で経験を通じて多様なスキルを共用できることを願っています。
艦隊規模のデータの送信や集中化を必要とせずに、このような艦隊レベルの学習を可能にするにはどうすればいいのか?
本稿では,政策の分散学習を潜在的解決策として検討する。
分散環境でのポリシを効率的にマージするために、繰り返しニューラルネットワークによってパラメータ化される学習ポリシーで生じる対称性を考慮した分散学習のインスタンス化であるFleet-mergeを提案する。
我々は,フリートマージがメタワールド環境での50個のタスクで訓練されたポリシーの動作を統合し,テスト時にほぼすべてのトレーニングタスクで優れたパフォーマンスを達成することを示す。
さらに,コンポジションおよび接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFleet-toolsを導入し,Fleet-mergeの有効性を検証する。
関連論文リスト
- Fed-EC: Bandwidth-Efficient Clustering-Based Federated Learning For Autonomous Visual Robot Navigation [7.8839937556789375]
Federated-EmbedCluster (Fed-EC) は、さまざまな屋外環境で視覚ベースの自律ロボットナビゲーションを備えたクラスタリングベースのフェデレーション学習フレームワークである。
Fed-ECは、目標指向ナビゲーションの集中学習性能に適合しながら、各ロボットの通信サイズを23倍に削減し、局所学習より優れる。
論文 参考訳(メタデータ) (2024-11-06T18:44:09Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - FedGradNorm: Personalized Federated Gradient-Normalized Multi-Task
Learning [50.756991828015316]
マルチタスク学習(MTL)は、1つの共有ネットワークで複数のタスクを同時に学習する新しいフレームワークである。
本稿では,異なるタスク間の学習速度のバランスをとるために,動的重み付け法を用いてノルムの正規化を行うFedGradNormを提案する。
論文 参考訳(メタデータ) (2022-03-24T17:43:12Z) - On Addressing Heterogeneity in Federated Learning for Autonomous
Vehicles Connected to a Drone Orchestrator [32.61132332561498]
我々は,自動運転車の性能を向上する上で,連邦学習(FL)のシナリオを想定する。
我々は,自律走行車の名目上の操作を損なう可能性のある,特定の種類の臨界物体(CO)の学習を加速する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-08-05T16:25:48Z) - Scalable Multi-Robot System for Non-myopic Spatial Sampling [9.37678298330157]
本稿では,空間場の非一様サンプリングのためのスケーラブルな分散マルチロボット計画アルゴリズムを提案する。
我々は,複数のロボット間のコミュニケーションがチーム全体のサンプリング性能に与える影響を,独立して分析する。
論文 参考訳(メタデータ) (2021-05-20T20:30:10Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。