論文の概要: Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight
- arxiv url: http://arxiv.org/abs/2403.12203v1
- Date: Mon, 18 Mar 2024 19:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:12:11.399077
- Title: Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight
- Title(参考訳): ビジョンベースのアジャイルフライトのための模倣によるブートストラップ強化学習
- Authors: Jiaxu Xing, Angel Romero, Leonard Bauersfeld, Davide Scaramuzza,
- Abstract要約: 視覚に基づく自律型ドローンレースにおける強化学習(RL)の有効性とImitation Learning(IL)の有効性を組み合わせる。
本フレームワークは,特権状態情報を用いた教師政策の初期訓練,ILを用いた学生政策への蒸留,適応的RL微調整の3段階からなる。
実環境と実環境の両方でのシミュレーション実験により,我々の手法は,明示的な状態推定を伴わない視覚情報のみを用いて,レースコースを走行する際に,ILやRL単独よりも優れた性能とロバスト性を達成できることが示されている。
- 参考スコア(独自算出の注目度): 20.92646531472541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We combine the effectiveness of Reinforcement Learning (RL) and the efficiency of Imitation Learning (IL) in the context of vision-based, autonomous drone racing. We focus on directly processing visual input without explicit state estimation. While RL offers a general framework for learning complex controllers through trial and error, it faces challenges regarding sample efficiency and computational demands due to the high dimensionality of visual inputs. Conversely, IL demonstrates efficiency in learning from visual demonstrations but is limited by the quality of those demonstrations and faces issues like covariate shift. To overcome these limitations, we propose a novel training framework combining RL and IL's advantages. Our framework involves three stages: initial training of a teacher policy using privileged state information, distilling this policy into a student policy using IL, and performance-constrained adaptive RL fine-tuning. Our experiments in both simulated and real-world environments demonstrate that our approach achieves superior performance and robustness than IL or RL alone in navigating a quadrotor through a racing course using only visual information without explicit state estimation.
- Abstract(参考訳): 視覚に基づく自律型ドローンレースにおける強化学習(RL)の有効性とImitation Learning(IL)の有効性を組み合わせる。
我々は、明示的な状態推定なしで視覚入力を直接処理することに集中する。
RLは、試行錯誤を通じて複雑なコントローラを学習するための一般的なフレームワークを提供するが、視覚入力の高次元性のため、サンプル効率と計算要求に関する課題に直面している。
逆に、ILは視覚的なデモンストレーションから学ぶことの効率を示すが、これらのデモの品質によって制限され、共変量シフトのような問題に直面している。
これらの制約を克服するために、RLとILの利点を組み合わせた新しいトレーニングフレームワークを提案する。
本フレームワークは,特権状態情報を用いた教師政策の初期訓練,ILを用いた学生政策への蒸留,適応的RL微調整の3段階からなる。
実環境と実環境の両方でのシミュレーション実験により,我々の手法は,明示的な状態推定を伴わない視覚情報のみを用いて,レースコースを走行する際に,ILやRL単独よりも優れた性能とロバスト性を達成できることが示されている。
関連論文リスト
- What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study [24.239835581921458]
実世界の四角形におけるゼロショット展開が可能なロバストなRL制御ポリシーを学習するための重要な要因について検討する。
これら5つのテクニックを統合した,PPOベースのトレーニングフレームワークSimpleFlightを開発した。
クレージーフリー四重極に対するSimpleFlightの有効性を検証し,軌道追従誤差を50%以上低減できることを実証した。
論文 参考訳(メタデータ) (2024-12-16T13:31:26Z) - Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - RVSL: Robust Vehicle Similarity Learning in Real Hazy Scenes Based on
Semi-supervised Learning [24.13217601503959]
車両類似性学習(re-identification、ReID)はコンピュータビジョンにおいて大きな注目を集めている。
我々は、ReIDとドメイン変換技術を統合した textbfRVSL と呼ばれるトレーニングパラダイムを構築した。
提案手法は, ヘイジーカーのReID問題に対して, 最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-09-18T18:45:06Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。