論文の概要: RISE: Robust Imitation through Stochastic Encoding
- arxiv url: http://arxiv.org/abs/2503.12243v2
- Date: Sat, 27 Sep 2025 12:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.220318
- Title: RISE: Robust Imitation through Stochastic Encoding
- Title(参考訳): RISE:確率エンコーディングによるロバストな模倣
- Authors: Mumuksh Tayal, Manan Tayal, Ravi Prakash,
- Abstract要約: 本稿では,環境パラメータの誤った測定をポリシー学習に明示的に対応させる,新しい模倣学習フレームワークを提案する。
我々のフレームワークは、障害状態、向き、速度などのパラメータを潜在空間にエンコードし、テスト時間を改善する。
我々は,2つのロボットプラットフォームに対するアプローチを検証するとともに,目標達成性能をベースライン法と比較し,安全性の向上を図っている。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring safety in robotic systems remains a fundamental challenge, especially when deploying offline policy-learning methods such as imitation learning in dynamic environments. Traditional behavior cloning (BC) often fails to generalize when deployed without fine-tuning as it does not account for disturbances in observations that arises in real-world, changing environments. To address this limitation, we propose RISE (Robust Imitation through Stochastic Encodings), a novel imitation-learning framework that explicitly addresses erroneous measurements of environment parameters into policy learning via a variational latent representation. Our framework encodes parameters such as obstacle state, orientation, and velocity into a smooth variational latent space to improve test time generalization. This enables an offline-trained policy to produce actions that are more robust to perceptual noise and environment uncertainty. We validate our approach on two robotic platforms, an autonomous ground vehicle and a Franka Emika Panda manipulator and demonstrate improved safety robustness while maintaining goal-reaching performance compared to baseline methods.
- Abstract(参考訳): ロボットシステムにおける安全性の確保は、特に動的環境における模倣学習のようなオフラインポリシー学習手法をデプロイする場合、依然として根本的な課題である。
従来の行動クローニング(BC)は、実際の環境や環境の変化で発生する観測の障害を考慮せず、微調整なしで展開する際に一般化に失敗することが多い。
この制限に対処するために,環境パラメータの誤った測定を,変分潜在表現によるポリシー学習に明示的に対応させる新しい模倣学習フレームワークRISE(Robust Imitation through Stochastic Encodings)を提案する。
本フレームワークは, 障害物状態, 向き, 速度などのパラメータをスムーズな変動潜在空間にエンコードし, テスト時間一般化を改善する。
これにより、オフラインでトレーニングされたポリシーは、知覚ノイズや環境の不確実性に対してより堅牢なアクションを生成することができる。
我々は,自律型地上車両とフランカ・エミカ・パンダ・マニピュレータの2つのロボットプラットフォームに対するアプローチを検証するとともに,目標達成性能を基準法と比較しながら安全性の向上を実証した。
関連論文リスト
- Guided by Guardrails: Control Barrier Functions as Safety Instructors for Robotic Learning [10.797457293404468]
安全は、私たちの日常生活における学習ベースのロボットシステムの普及を妨げる主要な障害である。
本研究では、エピソード終了のない連続的な負の報酬を適用することによって、これらの時間的効果をシミュレートする新しいアプローチを提案する。
CBFに基づく3つのアプローチを提案し、それぞれが従来のRL法を制御バリア関数と統合し、エージェントに安全な振る舞いの学習を指導する。
論文 参考訳(メタデータ) (2025-05-24T20:29:08Z) - Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation [55.02966123945644]
本稿では,ニューラルネットワーク検証技術を利用して制御障壁関数(CBF)とポリシー修正機構の設計を行う階層型制御フレームワークを提案する。
提案手法は,安全なCBFベースの制御層を構築するために使用される,安全でない操作領域を特定するための確率的列挙に依存する。
これらの実験は、効率的なナビゲーション動作を維持しながら、安全でない動作を補正する提案手法の能力を実証するものである。
論文 参考訳(メタデータ) (2025-04-30T13:47:25Z) - Generalizing Safety Beyond Collision-Avoidance via Latent-Space Reachability Analysis [6.267574471145217]
Hamilton-Jacobi (H) は、ロボットが安全でない状態を同時に検出し、アクションを生成するための厳格なフレームワークである。
生観測データを直接操作する潜在空間到達性であるLa Safety Filtersを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:00:20Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Online Context Learning for Socially Compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications [21.98309272057848]
本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-13T20:55:15Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。