論文の概要: Reinforcement Learning for Ballbot Navigation in Uneven Terrain
- arxiv url: http://arxiv.org/abs/2505.18417v1
- Date: Fri, 23 May 2025 22:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.408208
- Title: Reinforcement Learning for Ballbot Navigation in Uneven Terrain
- Title(参考訳): 不均一領域におけるボールボットナビゲーションのための強化学習
- Authors: Achkan Salehi,
- Abstract要約: MuJoCoをベースとしたオープンソースのボールボットシミュレーションを提案する。
古典的なモデルフリーなRL手法で学習したポリシーは、不均一な地形を効果的にナビゲートできることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ballbot (i.e. Ball balancing robot) navigation usually relies on methods rooted in control theory (CT), and works that apply Reinforcement learning (RL) to the problem remain rare while generally being limited to specific subtasks (e.g. balance recovery). Unlike CT based methods, RL does not require (simplifying) assumptions about environment dynamics (e.g. the absence of slippage between the ball and the floor). In addition to this increased accuracy in modeling, RL agents can easily be conditioned on additional observations such as depth-maps without the need for explicit formulations from first principles, leading to increased adaptivity. Despite those advantages, there has been little to no investigation into the capabilities, data-efficiency and limitations of RL based methods for ballbot control and navigation. Furthermore, there is a notable absence of an open-source, RL-friendly simulator for this task. In this paper, we present an open-source ballbot simulation based on MuJoCo, and show that with appropriate conditioning on exteroceptive observations as well as reward shaping, policies learned by classical model-free RL methods are capable of effectively navigating through randomly generated uneven terrain, using a reasonable amount of data (four to five hours on a system operating at 500hz).
- Abstract(参考訳): バルボット(バルバランシングロボット)のナビゲーションは通常、制御理論(CT)に根ざした手法に依存しており、Reinforcement Learning(RL)を問題に適用する作業は、一般に特定のサブタスク(例えば、バランス回復)に限定される一方で、稀なままである。
CT法とは異なり、RLは環境力学に関する仮定(例えばボールと床の間のすべりの欠如)を必要としない。
このモデリングの精度の向上に加えて、RLエージェントは第一原理からの明示的な定式化を必要とせず、深度マップのような追加の観測に容易に条件付けでき、適応性を高めることができる。
これらの利点にもかかわらず、ボールボット制御とナビゲーションのためのRLベースの手法の能力、データ効率、限界についてはほとんど調査されていない。
さらに、このタスクにはオープンソースのRLフレンドリなシミュレータが存在しない。
本稿では, MuJoCoをベースとしたオープンソースのボールボットシミュレーションを行い, 外部受動的観察と報酬形成を適切に条件づけた上で, 古典的モデルフリーRL法で学習したポリシーは, 合理的な量のデータ(500hzで動作するシステムでは4時間から5時間)を用いて, ランダムに生成された不均一な地形を効果的にナビゲート可能であることを示す。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study [24.239835581921458]
実世界の四角形におけるゼロショット展開が可能なロバストなRL制御ポリシーを学習するための重要な要因について検討する。
これら5つのテクニックを統合した,PPOベースのトレーニングフレームワークSimpleFlightを開発した。
クレージーフリー四重極に対するSimpleFlightの有効性を検証し,軌道追従誤差を50%以上低減できることを実証した。
論文 参考訳(メタデータ) (2024-12-16T13:31:26Z) - Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
論文 参考訳(メタデータ) (2023-11-30T09:38:59Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。