論文の概要: Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight
- arxiv url: http://arxiv.org/abs/2403.12203v3
- Date: Tue, 12 Nov 2024 15:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:49.144529
- Title: Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight
- Title(参考訳): ビジョンベースのアジャイルフライトのための模倣によるブートストラップ強化学習
- Authors: Jiaxu Xing, Angel Romero, Leonard Bauersfeld, Davide Scaramuzza,
- Abstract要約: 本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 20.92646531472541
- License:
- Abstract: Learning visuomotor policies for agile quadrotor flight presents significant difficulties, primarily from inefficient policy exploration caused by high-dimensional visual inputs and the need for precise and low-latency control. To address these challenges, we propose a novel approach that combines the performance of Reinforcement Learning (RL) and the sample efficiency of Imitation Learning (IL) in the task of vision-based autonomous drone racing. While RL provides a framework for learning high-performance controllers through trial and error, it faces challenges with sample efficiency and computational demands due to the high dimensionality of visual inputs. Conversely, IL efficiently learns from visual expert demonstrations, but it remains limited by the expert's performance and state distribution. To overcome these limitations, our policy learning framework integrates the strengths of both approaches. Our framework contains three phases: training a teacher policy using RL with privileged state information, distilling it into a student policy via IL, and adaptive fine-tuning via RL. Testing in both simulated and real-world scenarios shows our approach can not only learn in scenarios where RL from scratch fails but also outperforms existing IL methods in both robustness and performance, successfully navigating a quadrotor through a race course using only visual information. Videos of the experiments are available at https://rpg.ifi.uzh.ch/bootstrap-rl-with-il/index.html.
- Abstract(参考訳): アジャイル四極子飛行のための視覚的学習は、主に高次元の視覚的な入力によって引き起こされる非効率なポリシー探索と、正確で低レイテンシな制御の必要性から、重大な困難を生じさせる。
これらの課題に対処するために、視覚に基づく自律ドローンレースにおける強化学習(RL)の性能とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
RLは、試行錯誤によって高性能コントローラを学習するためのフレームワークを提供するが、視覚入力の高次元性のため、サンプル効率と計算要求の課題に直面している。
逆に、ILは視覚専門家によるデモンストレーションから効率的に学習するが、専門家のパフォーマンスと状態分布によって制限される。
これらの制限を克服するため、ポリシー学習フレームワークは両方のアプローチの長所を統合する。
本フレームワークは,特権状態情報を用いたRLを用いた教師政策の訓練,ILによる学生政策への蒸留,RLによる適応微調整の3段階を含む。
シミュレーションシナリオと実世界のシナリオの両方でテストすると、私たちのアプローチは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドを上回り、視覚情報のみを使用して4乗車を走らせることに成功した。
実験のビデオはhttps://rpg.ifi.uzh.ch/bootstrap-rl-with-il/index.htmlで公開されている。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - RVSL: Robust Vehicle Similarity Learning in Real Hazy Scenes Based on
Semi-supervised Learning [24.13217601503959]
車両類似性学習(re-identification、ReID)はコンピュータビジョンにおいて大きな注目を集めている。
我々は、ReIDとドメイン変換技術を統合した textbfRVSL と呼ばれるトレーニングパラダイムを構築した。
提案手法は, ヘイジーカーのReID問題に対して, 最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-09-18T18:45:06Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。