論文の概要: CycleRL: Sim-to-Real Deep Reinforcement Learning for Robust Autonomous Bicycle Control
- arxiv url: http://arxiv.org/abs/2603.15013v1
- Date: Mon, 16 Mar 2026 09:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.854876
- Title: CycleRL: Sim-to-Real Deep Reinforcement Learning for Robust Autonomous Bicycle Control
- Title(参考訳): CycleRL:ロバストな自律型自転車制御のための深部強化学習
- Authors: Gelu Liu, Teng Wang, Zhijie Wu, Junliang Wu, Songyuan Li, Xiangwei Zhu,
- Abstract要約: CycleRLは、堅牢な自律自転車制御のための初めてのシミュレート・トゥ・リアルな深層強化学習フレームワークである。
シミュレーションでは、CycleRLは99.90%のバランス成功率、1.15の低ステアリング追尾誤差、0.18m/sの速度追尾誤差など、かなりの性能を達成する。
- 参考スコア(独自算出の注目度): 10.350603824555408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous bicycles offer a promising agile solution for urban mobility and last-mile logistics, however, conventional control strategies often struggle with their underactuated nonlinear dynamics, suffering from sensitivity to model mismatches and limited adaptability to real-world uncertainties. To address this, this paper presents CycleRL, the first sim-to-real deep reinforcement learning framework designed for robust autonomous bicycle control. Our approach trains an end-to-end neural control policy within the high-fidelity NVIDIA Isaac Sim environment, leveraging Proximal Policy Optimization (PPO) to circumvent the need for an explicit dynamics model. The framework features a composite reward function tailored for concurrent balance maintenance, velocity tracking, and steering control. Crucially, systematic domain randomization is employed to bridge the simulation-to-reality gap and facilitate direct transfer. In simulation, CycleRL achieves considerable performance, including a 99.90% balance success rate, a low steering tracking error of 1.15°, and a velocity tracking error of 0.18 m/s. These quantitative results, coupled with successful hardware transfer, validate DRL as an effective paradigm for autonomous bicycle control, offering superior adaptability over traditional methods. Video demonstrations are available at https://anony6f05.github.io/CycleRL/.
- Abstract(参考訳): 自律型自転車は、都市移動とラストマイルのロジスティクスに有望なアジャイルソリューションを提供するが、従来の制御戦略は、不活性な非線形力学に苦しむことが多く、ミスマッチのモデルに対する感受性と現実の不確実性への適応性の制限に悩まされている。
そこで本研究では,自律型自転車制御のためのシミュレート・トゥ・リアル深部強化学習フレームワークであるCycleRLについて述べる。
当社のアプローチでは,PPO(Proximal Policy Optimization)を活用して,高忠実なNVIDIA Isaac Sim環境内でのエンドツーエンドのニューラルコントロールポリシをトレーニングすることで,明示的なダイナミックスモデルの必要性を回避する。
このフレームワークは、コンカレント・バランス維持、ベロシティ・トラッキング、ステアリング制御に適した複合報酬機能を備えている。
重要なことに、シミュレーションと現実のギャップを埋め、直接転送を容易にするために、体系的なドメインランダム化が用いられる。
シミュレーションでは、CycleRLは99.90%のバランス成功率、1.15°の低ステアリング追尾誤差、0.18m/sの速度追尾誤差など、かなりの性能を達成する。
これらの定量的結果は、ハードウェア転送の成功と相まって、DRLを自律的な自転車制御の効果的なパラダイムとして評価し、従来の手法よりも優れた適応性を提供する。
ビデオデモはhttps://anony6f05.github.io/CycleRL/で公開されている。
関連論文リスト
- Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application [0.0]
Deep Reinforcement Learning (DRL)は、自律的な水中ドッキングのための従来の制御方法に代わる堅牢な代替手段を提供する。
本稿では,高忠実なディジタル双生児環境を活用することで,ジローナ自律水中車両(AUV)を用いた自律ドッキングの体系的アプローチを提案する。
論文 参考訳(メタデータ) (2026-03-12T15:01:25Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay [8.172286651098027]
線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。
一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。
本稿では,物理インフォームドポリシによって強化されたRL制御系の開発を目標とする。
論文 参考訳(メタデータ) (2024-09-23T23:02:34Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。