論文の概要: Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight
- arxiv url: http://arxiv.org/abs/2403.12203v1
- Date: Mon, 18 Mar 2024 19:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:12:11.399077
- Title: Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight
- Title(参考訳): ビジョンベースのアジャイルフライトのための模倣によるブートストラップ強化学習
- Authors: Jiaxu Xing, Angel Romero, Leonard Bauersfeld, Davide Scaramuzza,
- Abstract要約: 視覚に基づく自律型ドローンレースにおける強化学習(RL)の有効性とImitation Learning(IL)の有効性を組み合わせる。
本フレームワークは,特権状態情報を用いた教師政策の初期訓練,ILを用いた学生政策への蒸留,適応的RL微調整の3段階からなる。
実環境と実環境の両方でのシミュレーション実験により,我々の手法は,明示的な状態推定を伴わない視覚情報のみを用いて,レースコースを走行する際に,ILやRL単独よりも優れた性能とロバスト性を達成できることが示されている。
- 参考スコア(独自算出の注目度): 20.92646531472541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We combine the effectiveness of Reinforcement Learning (RL) and the efficiency of Imitation Learning (IL) in the context of vision-based, autonomous drone racing. We focus on directly processing visual input without explicit state estimation. While RL offers a general framework for learning complex controllers through trial and error, it faces challenges regarding sample efficiency and computational demands due to the high dimensionality of visual inputs. Conversely, IL demonstrates efficiency in learning from visual demonstrations but is limited by the quality of those demonstrations and faces issues like covariate shift. To overcome these limitations, we propose a novel training framework combining RL and IL's advantages. Our framework involves three stages: initial training of a teacher policy using privileged state information, distilling this policy into a student policy using IL, and performance-constrained adaptive RL fine-tuning. Our experiments in both simulated and real-world environments demonstrate that our approach achieves superior performance and robustness than IL or RL alone in navigating a quadrotor through a racing course using only visual information without explicit state estimation.
- Abstract(参考訳): 視覚に基づく自律型ドローンレースにおける強化学習(RL)の有効性とImitation Learning(IL)の有効性を組み合わせる。
我々は、明示的な状態推定なしで視覚入力を直接処理することに集中する。
RLは、試行錯誤を通じて複雑なコントローラを学習するための一般的なフレームワークを提供するが、視覚入力の高次元性のため、サンプル効率と計算要求に関する課題に直面している。
逆に、ILは視覚的なデモンストレーションから学ぶことの効率を示すが、これらのデモの品質によって制限され、共変量シフトのような問題に直面している。
これらの制約を克服するために、RLとILの利点を組み合わせた新しいトレーニングフレームワークを提案する。
本フレームワークは,特権状態情報を用いた教師政策の初期訓練,ILを用いた学生政策への蒸留,適応的RL微調整の3段階からなる。
実環境と実環境の両方でのシミュレーション実験により,我々の手法は,明示的な状態推定を伴わない視覚情報のみを用いて,レースコースを走行する際に,ILやRL単独よりも優れた性能とロバスト性を達成できることが示されている。
関連論文リスト
- Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデル(VFM)とオフライン強化学習(オフラインRL)を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual
Reinforcement Learning [59.56908567984917]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Light-weight probing of unsupervised representations for Reinforcement
Learning [10.642105903491421]
分散度が低く,計算コストが最大600倍の教師なし視覚表現の評価プロトコルを提案する。
本研究では,ある状態における報酬の予測と,ある状態における専門家の行動の予測という2つの線形探索タスクを提案する。
厳密な実験により,Atari100kベンチマークの下流制御性能と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。