論文の概要: Curriculum Imitation Learning of Distributed Multi-Robot Policies
- arxiv url: http://arxiv.org/abs/2509.25097v2
- Date: Wed, 01 Oct 2025 18:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.859176
- Title: Curriculum Imitation Learning of Distributed Multi-Robot Policies
- Title(参考訳): 分散マルチロボット政策のカリキュラム模倣学習
- Authors: Jesús Roche, Eduardo Sebastián, Eduardo Montijano,
- Abstract要約: マルチロボットシステムの学習制御ポリシは,長期的調整と現実的なトレーニングデータ取得の難しさから,大きな課題である。
そこで本研究では,訓練中の専門的軌跡の長さを徐々に増加させるカリキュラム戦略を提案する。
また,各ロボットの自我中心的知覚を,第三者によるグローバルなデモンストレーションのみを用いて近似する手法も導入した。
- 参考スコア(独自算出の注目度): 5.376095069606724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning control policies for multi-robot systems (MRS) remains a major challenge due to long-term coordination and the difficulty of obtaining realistic training data. In this work, we address both limitations within an imitation learning framework. First, we shift the typical role of Curriculum Learning in MRS, from scalability with the number of robots, to focus on improving long-term coordination. We propose a curriculum strategy that gradually increases the length of expert trajectories during training, stabilizing learning and enhancing the accuracy of long-term behaviors. Second, we introduce a method to approximate the egocentric perception of each robot using only third-person global state demonstrations. Our approach transforms idealized trajectories into locally available observations by filtering neighbors, converting reference frames, and simulating onboard sensor variability. Both contributions are integrated into a physics-informed technique to produce scalable, distributed policies from observations. We conduct experiments across two tasks with varying team sizes and noise levels. Results show that our curriculum improves long-term accuracy, while our perceptual estimation method yields policies that are robust to realistic uncertainty. Together, these strategies enable the learning of robust, distributed controllers from global demonstrations, even in the absence of expert actions or onboard measurements.
- Abstract(参考訳): マルチロボットシステム(MRS)の学習制御ポリシは、長期協調と現実的なトレーニングデータ取得の難しさにより、依然として大きな課題である。
本研究では、模倣学習フレームワークにおける両方の制限に対処する。
まず,MSSにおけるカリキュラム学習の典型的な役割を,ロボットの数によるスケーラビリティから,長期的コーディネーションの改善に焦点をあてる。
本研究では,訓練中の専門的軌跡の長さを徐々に増加させ,学習の安定化と長期的行動の精度の向上を図るカリキュラム戦略を提案する。
第2に,3人称グローバルステートデモのみを用いて,各ロボットの自我中心的知覚を近似する手法を提案する。
提案手法は, 最適軌跡を, 隣人をフィルタリングし, 基準フレームを変換し, センサの変動をシミュレートすることで, 局所的な観測に変換する。
どちらのコントリビューションも、観測からスケーラブルで分散されたポリシーを生成する物理インフォームド技術に統合される。
チームサイズとノイズレベルが異なる2つのタスクで実験を行います。
その結果,本カリキュラムは長期的精度の向上を図り,知覚的評価手法は現実的な不確実性に頑健な方針を導出することがわかった。
これらの戦略は、専門家のアクションやオンボードの測定がなくても、グローバルなデモから堅牢で分散したコントローラを学ぶことを可能にする。
関連論文リスト
- STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning [9.15567555909617]
M2Distillは、生涯の模倣学習のためのマルチモーダル蒸留に基づく方法である。
我々は、前段階から現在の段階まで、様々なモダリティにわたる潜在表現のシフトを規制する。
学習したポリシーが、新しいスキルをシームレスに統合しながら、以前に学習したタスクを実行する能力を維持していることを保証します。
論文 参考訳(メタデータ) (2024-09-30T01:43:06Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。