Fugu-MT 論文翻訳(概要): How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation

論文の概要: How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation

arxiv url: http://arxiv.org/abs/2405.05439v2
Date: Thu, 18 Jul 2024 18:45:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 23:17:48.764640
Title: How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation
Title（参考訳）: 私の行動クローン政策はどの程度一般化可能か? 信頼できるパフォーマンス評価への統計的アプローチ
Authors: Joseph A. Vincent, Haruki Nishimura, Masha Itkina, Paarth Shah, Mac Schwager, Thomas Kollar,
Abstract要約: 行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
参考スコア（独自算出の注目度）: 17.638831964639834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of stochastic generative models in robot policy learning, end-to-end visuomotor policies are increasingly successful at solving complex tasks by learning from human demonstrations. Nevertheless, since real-world evaluation costs afford users only a small number of policy rollouts, it remains a challenge to accurately gauge the performance of such policies. This is exacerbated by distribution shifts causing unpredictable changes in performance during deployment. To rigorously evaluate behavior cloning policies, we present a framework that provides a tight lower-bound on robot performance in an arbitrary environment, using a minimal number of experimental policy rollouts. Notably, by applying the standard stochastic ordering to robot performance distributions, we provide a worst-case bound on the entire distribution of performance (via bounds on the cumulative distribution function) for a given task. We build upon established statistical results to ensure that the bounds hold with a user-specified confidence level and tightness, and are constructed from as few policy rollouts as possible. In experiments we evaluate policies for visuomotor manipulation in both simulation and hardware. Specifically, we (i) empirically validate the guarantees of the bounds in simulated manipulation settings, (ii) find the degree to which a learned policy deployed on hardware generalizes to new real-world environments, and (iii) rigorously compare two policies tested in out-of-distribution settings. Our experimental data, code, and implementation of confidence bounds are open-source.
Abstract（参考訳）: ロボット政策学習における確率的生成モデルの増加に伴い、人間の実演から学ぶことで複雑なタスクを解決するために、エンドツーエンドのビズモータポリシーがますます成功している。しかし、実際の評価コストは少数のポリシーのロールアウトにしか及ばないため、こうしたポリシーのパフォーマンスを正確に評価することは依然として困難である。これは、デプロイメント中に予期せぬパフォーマンス変化を引き起こす分散シフトによって悪化する。動作のクローン化ポリシーを厳格に評価するために,最小限の実験的なロールアウト数を用いて,任意の環境下でロボット性能に厳格な低バウンドを提供するフレームワークを提案する。特に、ロボットの性能分布に標準確率順序を適用することにより、与えられたタスクに対する(累積分布関数のバウンダリによる)性能分布全体に対する最悪のケースを提供する。我々は,ユーザ指定の信頼性レベルと厳密性を確保すべく,確立された統計結果を構築し,可能な限り少数のポリシーロールアウトから構築する。実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。具体的には一模擬操作設定における境界の保証を実証的に検証すること。二ハードウェアに導入した学習方針が、新たな現実世界環境に一般化する程度を把握し、三配当外の設定で試した二つの方針を厳格に比較すること。実験データ、コード、信頼性境界の実装はオープンソースです。

関連論文リスト

Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。シミュレーション環境の集合体であるSIMPLERを作成した。
論文参考訳（メタデータ） (2024-05-09T17:30:16Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Conformal Policy Learning for Sensorimotor Control Under Distribution Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文参考訳（メタデータ） (2023-11-02T17:59:30Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文参考訳（メタデータ） (2023-06-11T09:45:31Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文参考訳（メタデータ） (2023-04-05T16:45:11Z)
Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文参考訳（メタデータ） (2022-02-11T18:27:23Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。