論文の概要: Flow-based Domain Randomization for Learning and Sequencing Robotic Skills
- arxiv url: http://arxiv.org/abs/2502.01800v1
- Date: Mon, 03 Feb 2025 20:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:12.387101
- Title: Flow-based Domain Randomization for Learning and Sequencing Robotic Skills
- Title(参考訳): フローベースドメインランダム化によるロボットスキルの学習とシークエンシング
- Authors: Aidan Curtis, Eric Li, Michael Noseworthy, Nishad Gothoskar, Sachin Chitta, Hui Li, Leslie Pack Kaelbling, Nicole Carey,
- Abstract要約: 強化学習におけるドメインランダム化は、シミュレーションで訓練された制御ポリシーの堅牢性を高めるための確立された手法である。
本稿では,ニューラルサンプリング分布のエントロピー規則化報酬によるサンプリング分布の自動検出について検討する。
このアーキテクチャは、より単純でパラメータ化されたサンプリング分布を学習する既存のアプローチよりも柔軟であることを示す。
- 参考スコア(独自算出の注目度): 24.17247101490744
- License:
- Abstract: Domain randomization in reinforcement learning is an established technique for increasing the robustness of control policies trained in simulation. By randomizing environment properties during training, the learned policy can become robust to uncertainties along the randomized dimensions. While the environment distribution is typically specified by hand, in this paper we investigate automatically discovering a sampling distribution via entropy-regularized reward maximization of a normalizing-flow-based neural sampling distribution. We show that this architecture is more flexible and provides greater robustness than existing approaches that learn simpler, parameterized sampling distributions, as demonstrated in six simulated and one real-world robotics domain. Lastly, we explore how these learned sampling distributions, combined with a privileged value function, can be used for out-of-distribution detection in an uncertainty-aware multi-step manipulation planner.
- Abstract(参考訳): 強化学習におけるドメインランダム化は、シミュレーションで訓練された制御ポリシーの堅牢性を高めるための確立された手法である。
学習中の環境特性をランダム化することにより、学習されたポリシーはランダム化された次元に沿った不確実性に対して堅牢になる。
環境分布は一般に手動で特定されるが,本論文では,正規化フローに基づくニューラルサンプリング分布のエントロピー規則化報酬最大化によるサンプリング分布の自動発見について検討する。
6つのシミュレーションと1つの実世界のロボティクス領域で示されるように、このアーキテクチャはより柔軟で、より単純でパラメータ化されたサンプリング分布を学習する既存のアプローチよりも堅牢であることを示す。
最後に、これらの学習されたサンプリング分布と特権値関数を組み合わせることで、不確実性を考慮したマルチステップ操作プランナにおける分配外検出を実現する方法について検討する。
関連論文リスト
- Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows [1.2972104025246092]
本稿では,軌道生成のためのサンプリング手法について検討する。
変分推論の分野を起源とする正規化フローが検討される。
学習に基づく正規化フローモデルは、入力領域のより効率的な探索のために訓練される。
論文 参考訳(メタデータ) (2024-04-15T10:45:12Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Accurate generation of stochastic dynamics based on multi-model
Generative Adversarial Networks [0.0]
GAN(Generative Adversarial Networks)は、テキストや画像生成などの分野において大きな可能性を秘めている。
ここでは、格子上の原型過程に適用することにより、このアプローチを定量的に検証する。
重要なことに、ノイズにもかかわらずモデルの離散性は維持される。
論文 参考訳(メタデータ) (2023-05-25T10:41:02Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Unsupervised Learning of Sampling Distributions for Particle Filters [80.6716888175925]
観測結果からサンプリング分布を学習する4つの方法を提案する。
実験により、学習されたサンプリング分布は、設計された最小縮退サンプリング分布よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2023-02-02T15:50:21Z) - Diverse Human Motion Prediction via Gumbel-Softmax Sampling from an
Auxiliary Space [34.83587750498361]
多様な人間の動き予測は、観測されたポーズのシーケンスから、複数の将来のポーズシーケンスを予測することを目的としている。
従来のアプローチでは、通常、データの条件分布をモデル化するために深い生成ネットワークを使用し、その後、分布からランダムにサンプル結果を得る。
不均衡なマルチモーダル分布から非常に多様な結果をサンプリングするための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T09:03:57Z) - Generative Adversarial Network for Probabilistic Forecast of Random
Dynamical System [19.742888499307178]
本研究では,確率力学系のデータ駆動型シミュレーションのための深層学習モデルを提案する。
本稿では,逐次推論問題に対する一貫性条件に基づく生成逆数ネットワークの正規化戦略を提案する。
複雑な雑音構造を持つ3つのプロセスを用いて,提案モデルの挙動について検討した。
論文 参考訳(メタデータ) (2021-11-04T19:50:56Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Goal-oriented adaptive sampling under random field modelling of response
probability distributions [0.6445605125467573]
応答分布の空間的変動がそれらの平均および/または分散だけでなく、例えば、形状や一様性、多様性などを含む他の特徴も考慮する。
我々の貢献は、それによって引き起こされる確率分布の場をモデル化する非パラメトリックベイズアプローチに基づいている。
論文 参考訳(メタデータ) (2021-02-15T15:55:23Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。