論文の概要: RAPTOR: A Foundation Policy for Quadrotor Control
- arxiv url: http://arxiv.org/abs/2509.11481v1
- Date: Mon, 15 Sep 2025 00:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.105029
- Title: RAPTOR: A Foundation Policy for Quadrotor Control
- Title(参考訳): RAPTOR: クアドロター制御の基礎方針
- Authors: Jonas Eschmann, Dario Albani, Giuseppe Loianno,
- Abstract要約: 人間は、新しい車を運転するなど、目に見えない新しい状況に適応するとき、驚くほどデータ効率が良い。
強化学習(Reinforcement Learning)を使用してトレーニングされたニューラルネットワークポリシのような、現代のロボット制御システムは、単一の環境に非常に特化している。
本稿では,四元数制御のための高度適応的基本方針の学習方法であるRAPTORについて述べる。
- 参考スコア(独自算出の注目度): 7.1760769144571865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are remarkably data-efficient when adapting to new unseen conditions, like driving a new car. In contrast, modern robotic control systems, like neural network policies trained using Reinforcement Learning (RL), are highly specialized for single environments. Because of this overfitting, they are known to break down even under small differences like the Simulation-to-Reality (Sim2Real) gap and require system identification and retraining for even minimal changes to the system. In this work, we present RAPTOR, a method for training a highly adaptive foundation policy for quadrotor control. Our method enables training a single, end-to-end neural-network policy to control a wide variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg that also differ in motor type (brushed vs. brushless), frame type (soft vs. rigid), propeller type (2/3/4-blade), and flight controller (PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy with only 2084 parameters is sufficient for zero-shot adaptation to a wide variety of platforms. The adaptation through In-Context Learning is made possible by using a recurrence in the hidden layer. The policy is trained through a novel Meta-Imitation Learning algorithm, where we sample 1000 quadrotors and train a teacher policy for each of them using Reinforcement Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive student policy. We find that within milliseconds, the resulting foundation policy adapts zero-shot to unseen quadrotors. We extensively test the capabilities of the foundation policy under numerous conditions (trajectory tracking, indoor/outdoor, wind disturbance, poking, different propellers).
- Abstract(参考訳): 人間は、新しい車を運転するなど、目に見えない新しい状況に適応するとき、驚くほどデータ効率が良い。
対照的に、強化学習(RL)を使用してトレーニングされたニューラルネットワークポリシのような現代のロボット制御システムは、単一の環境に非常に専門的である。
このような過度な適合のため、シミュレーション・トゥ・リアル(Simmo-to-Real)ギャップのような小さな違いがあっても、システムを識別し、システムに最小限の変更を加える必要があることが知られている。
本研究では,四元数制御のための高度適応的基本方針の学習方法であるRAPTORを提案する。
本手法は,多種多様な四辺形を制御するために,単一エンドツーエンドのニューラル・ネットワーク・ポリシーを訓練することができる。
我々は、32gから2.4kgまでの10種類の実四極子を、同様にモータータイプ(ブラシレス対ブラシレス)、フレームタイプ(ソフト対剛性)、プロペラタイプ(2/3/4ブレード)、フライトコントローラ(PX4/Betaflight/Crazyflie/M5StampFly)でテストした。
2084パラメータしか持たない小さな3層ポリシーは、様々なプラットフォームへのゼロショット適応に十分である。
In-Context Learningによる適応は、隠れたレイヤの繰り返しを使用することで実現される。
政策は、新しいメタイミテーション学習アルゴリズムによって訓練され、1000の四分儀をサンプリングし、強化学習を用いて教師の政策を訓練する。
その後、1000人の教師が1つの適応的な学生政策に蒸留される。
数ミリ秒以内に、結果として生じる基本方針がゼロショットを目に見えない四辺形に適応させることが分かる。
各種の条件(軌道追跡,屋内/屋外,風乱,ポーキング,異なるプロペラ)で基礎政策の機能を広範囲に検証した。
関連論文リスト
- What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study [24.239835581921458]
実世界の四角形におけるゼロショット展開が可能なロバストなRL制御ポリシーを学習するための重要な要因について検討する。
これら5つのテクニックを統合した,PPOベースのトレーニングフレームワークSimpleFlightを開発した。
クレージーフリー四重極に対するSimpleFlightの有効性を検証し,軌道追従誤差を50%以上低減できることを実証した。
論文 参考訳(メタデータ) (2024-12-16T13:31:26Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Learning a subspace of policies for online adaptation in Reinforcement
Learning [14.7945053644125]
制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
訓練条件のバリエーションによく適合するRL法を開発する必要がある。
本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
論文 参考訳(メタデータ) (2021-10-11T11:43:34Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。