論文の概要: Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications
- arxiv url: http://arxiv.org/abs/2404.09080v1
- Date: Sat, 13 Apr 2024 20:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:24:26.015024
- Title: Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications
- Title(参考訳): 制約多様体の安全強化学習-理論と応用
- Authors: Puze Liu, Haitham Bou-Ammar, Jan Peters, Davide Tateo,
- Abstract要約: 本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 21.98309272057848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating learning-based techniques, especially reinforcement learning, into robotics is promising for solving complex problems in unstructured environments. However, most existing approaches are trained in well-tuned simulators and subsequently deployed on real robots without online fine-tuning. In this setting, the simulation's realism seriously impacts the deployment's success rate. Instead, learning with real-world interaction data offers a promising alternative: not only eliminates the need for a fine-tuned simulator but also applies to a broader range of tasks where accurate modeling is unfeasible. One major problem for on-robot reinforcement learning is ensuring safety, as uncontrolled exploration can cause catastrophic damage to the robot or the environment. Indeed, safety specifications, often represented as constraints, can be complex and non-linear, making safety challenging to guarantee in learning systems. In this paper, we show how we can impose complex safety constraints on learning-based robotics systems in a principled manner, both from theoretical and practical points of view. Our approach is based on the concept of the Constraint Manifold, representing the set of safe robot configurations. Exploiting differential geometry techniques, i.e., the tangent space, we can construct a safe action space, allowing learning agents to sample arbitrary actions while ensuring safety. We demonstrate the method's effectiveness in a real-world Robot Air Hockey task, showing that our method can handle high-dimensional tasks with complex constraints. Videos of the real robot experiments are available on the project website (https://puzeliu.github.io/TRO-ATACOM).
- Abstract(参考訳): 学習ベースのテクニック、特に強化学習をロボット工学に統合することは、非構造化環境で複雑な問題を解決することを約束している。
しかし、既存のほとんどのアプローチは、よく訓練されたシミュレーターで訓練され、その後、オンラインの微調整なしで実際のロボットにデプロイされる。
この環境では、シミュレーションのリアリズムがデプロイメントの成功率に深刻な影響を与えます。
より微調整されたシミュレータの必要性を排除できるだけでなく、正確なモデリングが不可能な幅広いタスクにも適用できる。
ロボットの強化学習の大きな問題は、制御不能な探索がロボットや環境に壊滅的なダメージを与える可能性があるため、安全性を確保することである。
実際、安全仕様は、しばしば制約として表現されるが、複雑で非線形であり、学習システムにおける安全性の保証を困難にしている。
本稿では,理論的,実践的両面から,学習型ロボットシステムに複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
タンジェント空間(英語版)と呼ばれる微分幾何学的手法を爆発させることにより、安全なアクション空間を構築することができ、学習エージェントは任意のアクションをサンプリングし、安全性を確保することができる。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証し,複雑な制約を伴って高次元タスクを処理可能であることを示す。
実際のロボット実験のビデオはプロジェクトのWebサイトで公開されている(https://puzeliu.github.io/TRO-ATACOM)。
関連論文リスト
- Deception Game: Closing the Safety-Learning Loop in Interactive Robot
Autonomy [7.915956857741506]
既存の安全手法は、ロボットが実行時に学習し適応する能力を無視することが多く、過度に保守的な行動を引き起こす。
本稿では,ロボットの進化する不確実性を明示的に考慮した安全制御ポリシを合成するための,新しいクローズドループパラダイムを提案する。
論文 参考訳(メタデータ) (2023-09-03T20:34:01Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Safe reinforcement learning of dynamic high-dimensional robotic tasks:
navigation, manipulation, interaction [31.553783147007177]
強化学習では、損傷を起こさない環境を探索する上で、安全はより基本的なものである。
本稿では,各種ロボット作業の強化学習のための安全探索の新たな定式化について紹介する。
我々のアプローチは、幅広い種類のロボットプラットフォームに適用され、データから学んだ複雑な衝突制約の下でも安全を強制する。
論文 参考訳(メタデータ) (2022-09-27T11:23:49Z) - Dual-Arm Adversarial Robot Learning [0.6091702876917281]
ロボット学習のためのプラットフォームとしてデュアルアーム設定を提案する。
このセットアップの潜在的なメリットと、追求できる課題と研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-10-15T12:51:57Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Sim2Real for Peg-Hole Insertion with Eye-in-Hand Camera [58.720142291102135]
シミュレーションを用いてペグホール挿入問題を学習し,学習したモデルを実ロボットに転送する。
本稿では,RGB-Dとジョイント情報(プロレセプション)のみを取り入れたトランスファーポリシーが,実際のロボットに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-05-29T05:58:54Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Efficient reinforcement learning control for continuum robots based on
Inexplicit Prior Knowledge [3.3645162441357437]
本稿では,未熟な事前知識に基づく効率的な強化学習手法を提案する。
本手法を用いることで、腱駆動ロボットのアクティブな視覚追跡と距離維持を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。