Fugu-MT 論文翻訳(概要): Flow-based Domain Randomization for Learning and Sequencing Robotic Skills

論文の概要: Flow-based Domain Randomization for Learning and Sequencing Robotic Skills

arxiv url: http://arxiv.org/abs/2502.01800v1
Date: Mon, 03 Feb 2025 20:25:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.738107
Title: Flow-based Domain Randomization for Learning and Sequencing Robotic Skills
Title（参考訳）: フローベースドメインランダム化によるロボットスキルの学習とシークエンシング
Authors: Aidan Curtis, Eric Li, Michael Noseworthy, Nishad Gothoskar, Sachin Chitta, Hui Li, Leslie Pack Kaelbling, Nicole Carey,
Abstract要約: 強化学習におけるドメインランダム化は、シミュレーションで訓練された制御ポリシーの堅牢性を高めるための確立された手法である。本稿では,ニューラルサンプリング分布のエントロピー規則化報酬によるサンプリング分布の自動検出について検討する。このアーキテクチャは、より単純でパラメータ化されたサンプリング分布を学習する既存のアプローチよりも柔軟であることを示す。
参考スコア（独自算出の注目度）: 24.17247101490744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain randomization in reinforcement learning is an established technique for increasing the robustness of control policies trained in simulation. By randomizing environment properties during training, the learned policy can become robust to uncertainties along the randomized dimensions. While the environment distribution is typically specified by hand, in this paper we investigate automatically discovering a sampling distribution via entropy-regularized reward maximization of a normalizing-flow-based neural sampling distribution. We show that this architecture is more flexible and provides greater robustness than existing approaches that learn simpler, parameterized sampling distributions, as demonstrated in six simulated and one real-world robotics domain. Lastly, we explore how these learned sampling distributions, combined with a privileged value function, can be used for out-of-distribution detection in an uncertainty-aware multi-step manipulation planner.
Abstract（参考訳）: 強化学習におけるドメインランダム化は、シミュレーションで訓練された制御ポリシーの堅牢性を高めるための確立された手法である。学習中の環境特性をランダム化することにより、学習されたポリシーはランダム化された次元に沿った不確実性に対して堅牢になる。環境分布は一般に手動で特定されるが,本論文では,正規化フローに基づくニューラルサンプリング分布のエントロピー規則化報酬最大化によるサンプリング分布の自動発見について検討する。 6つのシミュレーションと1つの実世界のロボティクス領域で示されるように、このアーキテクチャはより柔軟で、より単純でパラメータ化されたサンプリング分布を学習する既存のアプローチよりも堅牢であることを示す。最後に、これらの学習されたサンプリング分布と特権値関数を組み合わせることで、不確実性を考慮したマルチステップ操作プランナにおける分配外検出を実現する方法について検討する。

関連論文リスト

Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。本稿では,マルチユーザ干渉ネットワークにおける電力制御のケーススタディとして数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows [69.8873421870522]
重要サンプリングはモンテカルロシミュレーションで使われる稀な事象シミュレーション手法である。正規化フローの潜在空間における提案分布を更新し,より効率的なサンプリング法を提案する。
論文参考訳（メタデータ） (2025-01-06T21:18:02Z)
Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文参考訳（メタデータ） (2024-10-02T11:33:13Z)
Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows [1.2972104025246092]
本稿では,軌道生成のためのサンプリング手法について検討する。変分推論の分野を起源とする正規化フローが検討される。学習に基づく正規化フローモデルは、入力領域のより効率的な探索のために訓練される。
論文参考訳（メタデータ） (2024-04-15T10:45:12Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Accurate generation of stochastic dynamics based on multi-model Generative Adversarial Networks [0.0]
GAN(Generative Adversarial Networks)は、テキストや画像生成などの分野において大きな可能性を秘めている。ここでは、格子上の原型過程に適用することにより、このアプローチを定量的に検証する。重要なことに、ノイズにもかかわらずモデルの離散性は維持される。
論文参考訳（メタデータ） (2023-05-25T10:41:02Z)
Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文参考訳（メタデータ） (2023-02-11T22:06:17Z)
Diverse Human Motion Prediction via Gumbel-Softmax Sampling from an Auxiliary Space [34.83587750498361]
多様な人間の動き予測は、観測されたポーズのシーケンスから、複数の将来のポーズシーケンスを予測することを目的としている。従来のアプローチでは、通常、データの条件分布をモデル化するために深い生成ネットワークを使用し、その後、分布からランダムにサンプル結果を得る。不均衡なマルチモーダル分布から非常に多様な結果をサンプリングするための新しいサンプリング手法を提案する。
論文参考訳（メタデータ） (2022-07-15T09:03:57Z)
Generative Adversarial Network for Probabilistic Forecast of Random Dynamical System [19.742888499307178]
本研究では,確率力学系のデータ駆動型シミュレーションのための深層学習モデルを提案する。本稿では,逐次推論問題に対する一貫性条件に基づく生成逆数ネットワークの正規化戦略を提案する。複雑な雑音構造を持つ3つのプロセスを用いて,提案モデルの挙動について検討した。
論文参考訳（メタデータ） (2021-11-04T19:50:56Z)
Goal-oriented adaptive sampling under random field modelling of response probability distributions [0.6445605125467573]
応答分布の空間的変動がそれらの平均および/または分散だけでなく、例えば、形状や一様性、多様性などを含む他の特徴も考慮する。我々の貢献は、それによって引き起こされる確率分布の場をモデル化する非パラメトリックベイズアプローチに基づいている。
論文参考訳（メタデータ） (2021-02-15T15:55:23Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。