論文の概要: GenOSIL: Generalized Optimal and Safe Robot Control using Parameter-Conditioned Imitation Learning
- arxiv url: http://arxiv.org/abs/2503.12243v1
- Date: Sat, 15 Mar 2025 19:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:08.342682
- Title: GenOSIL: Generalized Optimal and Safe Robot Control using Parameter-Conditioned Imitation Learning
- Title(参考訳): GenOSIL:パラメータ記述型模倣学習を用いた汎用最適・安全なロボット制御
- Authors: Mumuksh Tayal, Manan Tayal, Ravi Prakash,
- Abstract要約: 我々は環境パラメータをポリシー学習に明示的に組み込んだ新しい模倣学習フレームワークGenOSILを提案する。
環境をブラックボックスとして扱う従来の方法とは異なり、GenOSILは可変オートエンコーダ(VAE)を使用して測定可能な安全性パラメータを符号化している。
我々は,Franka Emika Panda(フランカ・エミカ・パンダ)マニピュレータ(Franka Emika Panda(フランカ・エミカ・パンダ)マニピュレータ(Franka Panda)を開発した。
- 参考スコア(独自算出の注目度): 0.8704964543257245
- License:
- Abstract: Ensuring safe and generalizable control remains a fundamental challenge in robotics, particularly when deploying imitation learning in dynamic environments. Traditional behavior cloning (BC) struggles to generalize beyond its training distribution, as it lacks an understanding of the safety critical reasoning behind expert demonstrations. To address this limitation, we propose GenOSIL, a novel imitation learning framework that explicitly incorporates environment parameters into policy learning via a structured latent representation. Unlike conventional methods that treat the environment as a black box, GenOSIL employs a variational autoencoder (VAE) to encode measurable safety parameters such as obstacle position, velocity, and geometry into a latent space that captures intrinsic correlations between expert behavior and environmental constraints. This enables the policy to infer the rationale behind expert trajectories rather than merely replicating them. We validate our approach on two robotic platforms an autonomous ground vehicle and a Franka Emika Panda manipulator demonstrating superior safety and goal reaching performance compared to baseline methods. The simulation and hardware videos can be viewed on the project webpage: https://mumukshtayal.github.io/GenOSIL/.
- Abstract(参考訳): 安全で一般化可能な制御を保証することは、ロボット工学における基本的な課題であり、特に動的環境に模倣学習を配置する場合である。
従来の行動クローニング(BC)は、専門家によるデモンストレーションの背後にある安全クリティカルな理由の理解が欠如しているため、トレーニング分布を超えて一般化に苦慮している。
この制限に対処するために,環境パラメータを構造化潜在表現によるポリシー学習に明示的に組み込んだ新しい模倣学習フレームワークGenOSILを提案する。
環境をブラックボックスとして扱う従来の方法とは異なり、GenOSILは可変オートエンコーダ(VAE)を使用して障害物位置、速度、幾何学などの測定可能な安全パラメータを潜時空間に符号化し、専門家の行動と環境制約の間の本質的な相関を捉える。
これにより、ポリシーは単にそれを複製するのではなく、専門家の軌道の背後にある理論的根拠を推測することができる。
本研究は,Franka Emika Panda(フランカ・エミカ・パンダ)マニピュレータ(Franka Emika Panda(フランカ・エミカ・パンダ)マニピュレータ(Franka Panda)と2つのロボットプラットフォームに対するアプローチを検証する。
シミュレーションとハードウェアビデオはプロジェクトのWebページ(https://mumukshtayal.github.io/GenOSIL/)で見ることができる。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Online Context Learning for Socially Compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications [21.98309272057848]
本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-13T20:55:15Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。