論文の概要: Marginalized Importance Sampling for Off-Environment Policy Evaluation
- arxiv url: http://arxiv.org/abs/2309.01807v1
- Date: Mon, 4 Sep 2023 20:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:24:01.710350
- Title: Marginalized Importance Sampling for Off-Environment Policy Evaluation
- Title(参考訳): 環境外政策評価のための限界化重要度サンプリング
- Authors: Pulkit Katdare, Nan Jiang and Katherine Driggs-Campbell
- Abstract要約: 本稿では,エージェントポリシーの現実的性能を評価するための新しい手法を提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
提案手法は,様々なSim2Simギャップ,ターゲットポリシ,オフラインデータ収集ポリシにまたがってよく一般化されていることを示す。
- 参考スコア(独自算出の注目度): 13.824507564510503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning (RL) methods are typically sample-inefficient, making
it challenging to train and deploy RL-policies in real world robots. Even a
robust policy trained in simulation, requires a real-world deployment to assess
their performance. This paper proposes a new approach to evaluate the
real-world performance of agent policies without deploying them in the real
world. The proposed approach incorporates a simulator along with real-world
offline data to evaluate the performance of any policy using the framework of
Marginalized Importance Sampling (MIS). Existing MIS methods face two
challenges: (1) large density ratios that deviate from a reasonable range and
(2) indirect supervision, where the ratio needs to be inferred indirectly, thus
exacerbating estimation error. Our approach addresses these challenges by
introducing the target policy's occupancy in the simulator as an intermediate
variable and learning the density ratio as the product of two terms that can be
learned separately. The first term is learned with direct supervision and the
second term has a small magnitude, thus making it easier to run. We analyze the
sample complexity as well as error propagation of our two step-procedure.
Furthermore, we empirically evaluate our approach on Sim2Sim environments such
as Cartpole, Reacher and Half-Cheetah. Our results show that our method
generalizes well across a variety of Sim2Sim gap, target policies and offline
data collection policies. We also demonstrate the performance of our algorithm
on a Sim2Real task of validating the performance of a 7 DOF robotic arm using
offline data along with a gazebo based arm simulator.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) 法は通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
シミュレーションでトレーニングされた堅牢なポリシでさえ、パフォーマンスを評価するために実際のデプロイメントが必要です。
本稿では,エージェントポリシーの現実的性能を評価するための新しい手法を提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,Marginalized Importance Sampling (MIS) のフレームワークを用いて,任意のポリシのパフォーマンスを評価する。
既存のmis手法では,(1)適度な範囲から逸脱する大きな密度比と(2)間接的な監督,(2)間接的に推定する必要があるため推定誤差が悪化する,という2つの課題に直面している。
提案手法は,中間変数としてシミュレータにターゲットポリシーの占有率を導入し,分離学習可能な2項の積として密度比を学習することで,これらの課題に対処する。
第1項は直接監督によって学習され、第2項は小さなマグニチュードを持つため、実行が容易になる。
サンプルの複雑さと2つのステッププロシージャのエラー伝播を分析した。
さらに,Cartpole,Reacher,Half-CheetahなどのSim2Sim環境に対するアプローチを実証的に評価した。
提案手法は,様々なSim2Simギャップ,ターゲットポリシ,オフラインデータ収集ポリシにまたがって一般化されている。
また, オフラインデータを用いた7自由度ロボットアームの性能検証とガゼボ型アームシミュレータを用いたsim2実作業におけるアルゴリズムの性能を実証した。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Bridging the Reality Gap of Reinforcement Learning based Traffic Signal
Control using Domain Randomization and Meta Learning [0.7614628596146599]
本稿では,この現実のギャップに寄与する潜在的なシミュレーションパラメータを包括的に分析する。
ドメインランダム化(DR)とモデル非依存メタラーニング(MAML)という,このギャップを埋める有望な2つの戦略を検討する。
実験の結果,DRとMAMLはいずれも最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-21T05:17:21Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。