論文の概要: SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion
- arxiv url: http://arxiv.org/abs/2603.17092v1
- Date: Tue, 17 Mar 2026 19:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.931096
- Title: SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion
- Title(参考訳): SLowRL:ローラン適応強化学習
- Authors: Elham Daneshmand, Shafeef Omar, Glen Berseth, Majid Khadiv, Hsiu-Chin Lin,
- Abstract要約: SLowRLはローランド適応(LoRA)とリカバリポリシによるトレーニング時間安全対策を組み合わせたフレームワークである。
実験結果から,本手法は微調整時間とほぼゼロの安全違反を4,6.5%削減できることがわかった。
- 参考スコア(独自算出の注目度): 16.763723249971793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sim-to-real transfer of locomotion policies often leads to performance degradation due to the inevitable sim-to-real gap. Naively fine-tuning these policies directly on hardware is problematic, as it poses risks of mechanical failure and suffers from high sample inefficiency. In this paper, we address the challenge of safely and efficiently fine-tuning reinforcement learning (RL) policies for dynamic locomotion tasks. Specifically, we focus on fine-tuning policies learned in simulation directly on hardware, while explicitly enforcing safety constraints. In doing so, we introduce SLowRL, a framework that combines Low-Rank Adaptation (LoRA) with training-time safety enforcement via a recovery policy. We evaluate our method both in simulation and on a real Unitree Go2 quadruped robot for jump and trot tasks. Experimental results show that our method achieves a $46.5\%$ reduction in fine-tuning time and near-zero safety violations compared to standard proximal policy optimization (PPO) baselines. Notably, we find that a rank-1 adaptation alone is sufficient to recover pre-trained performance in the real world, while maintaining stable and safe real-world fine-tuning. These results demonstrate the practicality of safe, efficient fine-tuning for dynamic real-world robotic applications.
- Abstract(参考訳): ローコモーションポリシーのシミュレート・トゥ・リアル転送は、必然的にシミュレート・トゥ・リアルのギャップがあるため、しばしば性能劣化を引き起こす。
これらのポリシーをハードウェアに直接微調整することは、機械的故障の危険性があり、高いサンプル不効率に悩まされるため、問題となる。
本稿では,動的移動タスクにおけるRL(Regressment Learning)ポリシーの安全性と効率性について述べる。
具体的には、ハードウェア上で直接シミュレーションで学んだ微調整ポリシーに焦点を当て、安全性の制約を明示的に実施する。
SLowRLはローランド適応(LoRA)とリカバリポリシによるトレーニング時間安全対策を組み合わせたフレームワークである。
本手法は,ジャンプタスクとトロットタスクのための,シミュレーションと実際のUnitree Go2四足歩行ロボットを用いて評価する。
実験結果から,本手法はPPOベースラインに比べて細調整時間とほぼゼロの安全性違反を4,6.5 %削減できることがわかった。
特に、ランク1の適応だけでは、安定的で安全な実世界の微調整を維持しながら、実世界の事前訓練されたパフォーマンスを回復するのに十分であることがわかった。
これらの結果は、動的実世界のロボット応用のための安全で効率的な微調整の実用性を示している。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer [60.19411648245077]
悲観的領域ランダム化によるSim-to-realの略称であるSPiDRを提案する。
SPiDRは、安全なsim-to-real転送を保証するスケーラブルなアルゴリズムである。
我々は,SPiDRが性能を維持しつつ,シミュレートとリアルのギャップを保ちながら,安全性を効果的に確保できることを実証した。
論文 参考訳(メタデータ) (2025-09-23T05:03:00Z) - SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning [10.138425472807368]
SATAは、動物の移動で観察される重要な生体力学的原理と適応学習機構を模倣する生体に触発されたフレームワークである。
本手法は,早期探索を著しく改善し,トルクベースの政策を学習する上での課題を効果的に解決する。
実験結果から,SATAは,挑戦的環境においても,顕著なコンプライアンスと安全性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-18T09:25:37Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Sim-Anchored Learning for On-the-Fly Adaptation [45.123633153460034]
実世界のデータを持つ微調整シミュレーション訓練されたRLエージェントは、制限されたデータ分布や歪んだデータ分布のために重要な振る舞いを劣化させることが多い。
シミュレーションと現実の両方において政策目標を満たさなければならない多目的最適化問題として、フレーミングライブ適応を提案する。
論文 参考訳(メタデータ) (2023-01-17T16:16:53Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning for Legged Locomotion [18.57681606310315]
本研究では,ロボットが安全でない状態に入るのを防ぐ安全回復政策と,タスクを完了させるために最適化された学習者ポリシーとを切り替える安全な強化学習フレームワークを提案する。
シミュレーションおよび実四足歩行ロボットを用いた4つの移動作業において,提案手法を検証した。
提案手法は, シミュレーションにおける基準法よりも48.6%減少し, 同等あるいは優れた報奨が得られている。
論文 参考訳(メタデータ) (2022-03-05T01:49:16Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。