論文の概要: CTSAC: Curriculum-Based Transformer Soft Actor-Critic for Goal-Oriented Robot Exploration
- arxiv url: http://arxiv.org/abs/2503.14254v1
- Date: Tue, 18 Mar 2025 13:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:14:55.536663
- Title: CTSAC: Curriculum-Based Transformer Soft Actor-Critic for Goal-Oriented Robot Exploration
- Title(参考訳): CTSAC:ゴール指向型ロボット探査のためのカリキュラムベースのトランスフォーマーソフトアクタークリティカル
- Authors: Chunyu Yang, Shengben Bi, Yihui Xu, Xin Zhang,
- Abstract要約: 強化学習(RL)は自律型ロボット探査の分野で有望なアプローチになりつつある。
現在のRLベースの探索アルゴリズムは、限られた環境推論能力、緩やかな収束率、シム・トゥ・レアル転送における重大な課題に直面することが多い。
本稿では,探索効率と転送性能の両方を改善することを目的とした,カリキュラム学習に基づく変圧器強化学習アルゴリズム(CTSAC)を提案する。
- 参考スコア(独自算出の注目度): 3.435901586870572
- License:
- Abstract: With the increasing demand for efficient and flexible robotic exploration solutions, Reinforcement Learning (RL) is becoming a promising approach in the field of autonomous robotic exploration. However, current RL-based exploration algorithms often face limited environmental reasoning capabilities, slow convergence rates, and substantial challenges in Sim-To-Real (S2R) transfer. To address these issues, we propose a Curriculum Learning-based Transformer Reinforcement Learning Algorithm (CTSAC) aimed at improving both exploration efficiency and transfer performance. To enhance the robot's reasoning ability, a Transformer is integrated into the perception network of the Soft Actor-Critic (SAC) framework, leveraging historical information to improve the farsightedness of the strategy. A periodic review-based curriculum learning is proposed, which enhances training efficiency while mitigating catastrophic forgetting during curriculum transitions. Training is conducted on the ROS-Gazebo continuous robotic simulation platform, with LiDAR clustering optimization to further reduce the S2R gap. Experimental results demonstrate the CTSAC algorithm outperforms the state-of-the-art non-learning and learning-based algorithms in terms of success rate and success rate-weighted exploration time. Moreover, real-world experiments validate the strong S2R transfer capabilities of CTSAC.
- Abstract(参考訳): 効率的で柔軟なロボット探査ソリューションの需要が高まる中、強化学習(RL)は自律型ロボット探査の分野で有望なアプローチになりつつある。
しかしながら、現在のRLベースの探索アルゴリズムは、環境推論能力の制限、収束速度の低下、Sim-To-Real(S2R)転送における重大な課題に直面していることが多い。
これらの課題に対処するため、探索効率と転送性能の両方を改善することを目的とした、カリキュラム学習に基づく変圧器強化学習アルゴリズム(CTSAC)を提案する。
ロボットの推論能力を高めるため、トランスフォーマーはソフトアクター・クリティカル(SAC)フレームワークの知覚ネットワークに統合され、歴史的情報を活用して戦略の遠視性を改善する。
定期的なレビューに基づくカリキュラム学習が提案され、カリキュラム移行中の破滅的な忘れを軽減しつつ、トレーニング効率を向上させる。
ROS-Gazebo連続ロボットシミュレーションプラットフォーム上でトレーニングが行われ、LiDARクラスタリングの最適化によりS2Rギャップをさらに小さくする。
CTSACアルゴリズムは、成功率と成功率重み探索時間の観点から、最先端の非学習および学習に基づくアルゴリズムより優れていることを示す実験結果を得た。
さらに、実世界の実験は、CTSACの強いS2R転送能力を検証する。
関連論文リスト
- Digital Twin-Enabled Real-Time Control in Robotic Additive Manufacturing via Soft Actor-Critic Reinforcement Learning [2.5709786140685633]
本研究は,ソフトアクタ・クリティカル(SAC)強化学習とデジタルツイン技術を組み合わせた新しいアプローチを提案する。
我々は,Vier X300sロボットアームを用いて,2つの異なる制御シナリオを実装した手法を実証した。
その結果、シミュレートされた環境と物理的環境の両方において、迅速な政策収束と堅牢なタスク実行が示された。
論文 参考訳(メタデータ) (2025-01-29T22:06:53Z) - Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - PI-ARS: Accelerating Evolution-Learned Visual-Locomotion with Predictive
Information Representations [32.37414300338581]
進化戦略(ES)アルゴリズムは複雑なロボット制御ポリシーのトレーニングにおいて有望な結果を示している。
PI-ARSは、勾配に基づく表現学習技術、予測情報(PI)と勾配のないESアルゴリズム、拡張ランダム探索(ARS)を組み合わせた。
PI-ARS は ARS ベースラインに比べて学習効率と性能が有意に向上していることを示す。
論文 参考訳(メタデータ) (2022-07-27T00:26:15Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Accelerating Reinforcement Learning for Reaching using Continuous
Curriculum Learning [6.703429330486276]
我々は、強化学習(RL)訓練の加速と、多目標到達タスクの性能向上に重点を置いている。
具体的には、トレーニングプロセス中に要件を徐々に調整する精度ベースの継続的カリキュラム学習(PCCL)手法を提案する。
このアプローチは、シミュレーションと実世界のマルチゴールリーチ実験の両方において、ユニバーサルロボット5eを用いてテストされる。
論文 参考訳(メタデータ) (2020-02-07T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。