論文の概要: Reinforcement Learning-Based Control of CrazyFlie 2.X Quadrotor
- arxiv url: http://arxiv.org/abs/2306.03951v2
- Date: Wed, 14 Jun 2023 09:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:59:32.830527
- Title: Reinforcement Learning-Based Control of CrazyFlie 2.X Quadrotor
- Title(参考訳): CrazyFlie 2.Xの強化学習に基づく制御
- Authors: Arshad Javeed, Valent\'in L\'opez Jim\'enez
- Abstract要約: プロジェクトの目的は、PIDのような古典的な制御アルゴリズムと現代の強化学習アルゴリズムの相乗効果を検討することである。
第一の目的は、強化学習戦略を用いたPIDチューニングを行うことである。
第二の目的は、灯台位置決めシステムを統合することにより、学習を活用してナビゲーションの制御を実装することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of the project is to explore synergies between classical
control algorithms such as PID and contemporary reinforcement learning
algorithms to come up with a pragmatic control mechanism to control the
CrazyFlie 2.X quadrotor. The primary objective would be performing PID tuning
using reinforcement learning strategies. The secondary objective is to leverage
the learnings from the first task to implement control for navigation by
integrating with the lighthouse positioning system. Two approaches are
considered for navigation, a discrete navigation problem using Deep Q-Learning
with finite predefined motion primitives, and deep reinforcement learning for a
continuous navigation approach. Simulations for RL training will be performed
on gym-pybullet-drones, an open-source gym-based environment for reinforcement
learning, and the RL implementations are provided by stable-baselines3
- Abstract(参考訳): プロジェクトの目的は、PIDのような古典的な制御アルゴリズムと現代の強化学習アルゴリズムの相乗効果を探求し、クレイジーフリー2.Xを制御するための実用的な制御機構を考案することである。
第一の目的は強化学習戦略を用いたPIDチューニングを行うことである。
第二の目的は、最初のタスクからの学習を活用し、灯台位置決めシステムと統合してナビゲーションの制御を実装することである。
ナビゲーションには2つのアプローチが考えられる。これは、有限の事前定義された動作プリミティブを持つ深部Q-Learningを用いた離散的なナビゲーション問題であり、連続的なナビゲーションアプローチのための深部強化学習である。
RLトレーニングのシミュレーションは、強化学習のためのオープンソースのジムベースの環境であるジム・パイブルレット・ドレーンで実施され、RL実装は安定ベースライン3で提供される。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms [5.7648266677851865]
我々は、36の産業制御設定と10の無限次元偏微分方程式(PDE)に基づく制御問題からなる制御ギームを導入する。
controlgymはOpenAI Gym/Gymnasiumフレームワークに統合されている。
論文 参考訳(メタデータ) (2023-11-30T17:34:05Z) - Tracking Control for a Spherical Pendulum via Curriculum Reinforcement
Learning [27.73555826776087]
強化学習(RL)は、データから純粋に非自明なロボット制御法を学習することを可能にする。
本稿では,大規模並列化シミュレーションに基づいてRLでキュリキュラを自動構築するアルゴリズムを提案する。
非線形トラッキングタスクに対する状態推定と制御を共同で学習するカリキュラムRLの可能性を示す。
論文 参考訳(メタデータ) (2023-09-25T12:48:47Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Katakomba: Tools and Benchmarks for Data-Driven NetHack [52.0035089982277]
NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
論文 参考訳(メタデータ) (2023-06-14T22:50:25Z) - CT-DQN: Control-Tutored Deep Reinforcement Learning [4.395396671038298]
Control-Tutored Deep Q-Networks (CT-DQN)は、制御チューターを利用して学習時間を短縮するDeep Reinforcement Learningアルゴリズムである。
我々は,OpenAI Gymの逆振り子,月面着陸機,カーレースの3つのシナリオに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-02T17:59:43Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。