論文の概要: Safe Deep RL in 3D Environments using Human Feedback
- arxiv url: http://arxiv.org/abs/2201.08102v1
- Date: Thu, 20 Jan 2022 10:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 14:18:57.161768
- Title: Safe Deep RL in 3D Environments using Human Feedback
- Title(参考訳): 人のフィードバックを用いた3次元環境における安全な深部RL
- Authors: Matthew Rahtz, Vikrant Varma, Ramana Kumar, Zachary Kenton, Shane
Legg, Jan Leike
- Abstract要約: ReQueSTは、安全な人間の軌道から環境の神経シミュレータを学習することで問題を解決することを目的としている。
実際の人間からフィードバックを得た複雑な3D環境において、このアプローチが実現可能かどうかはまだ分かっていない。
その結果, 標準強化学習と比較して, 不安全行動の桁違いの減少が認められた。
- 参考スコア(独自算出の注目度): 15.038298345682556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents should avoid unsafe behaviour during both training and deployment.
This typically requires a simulator and a procedural specification of unsafe
behaviour. Unfortunately, a simulator is not always available, and procedurally
specifying constraints can be difficult or impossible for many real-world
tasks. A recently introduced technique, ReQueST, aims to solve this problem by
learning a neural simulator of the environment from safe human trajectories,
then using the learned simulator to efficiently learn a reward model from human
feedback. However, it is yet unknown whether this approach is feasible in
complex 3D environments with feedback obtained from real humans - whether
sufficient pixel-based neural simulator quality can be achieved, and whether
the human data requirements are viable in terms of both quantity and quality.
In this paper we answer this question in the affirmative, using ReQueST to
train an agent to perform a 3D first-person object collection task using data
entirely from human contractors. We show that the resulting agent exhibits an
order of magnitude reduction in unsafe behaviour compared to standard
reinforcement learning.
- Abstract(参考訳): エージェントはトレーニングとデプロイメントの間、安全でない振る舞いを避ける必要がある。
これは通常、シミュレータと安全でない振る舞いの手続き仕様を必要とする。
残念ながらシミュレータは必ずしも利用可能ではなく、手続き的に制約を指定することは現実の多くのタスクでは困難または不可能である。
最近導入されたReQueSTは、安全な人間の軌道から環境の神経シミュレータを学習し、学習したシミュレータを使って人間のフィードバックから報酬モデルを効率的に学習することで、この問題を解決することを目指している。
しかし、このアプローチが実際の人間からフィードバックを得た複雑な3d環境で実現可能かどうか、十分なピクセルベースのニューラルシミュレータの品質を達成できるか、そして、量と品質の両面で人間のデータ要件が実現可能かどうかはまだ不明である。
本稿では,ReQueSTを用いてエージェントを訓練し,人間の請負業者からのデータを用いた3Dファーストパーソンオブジェクト収集タスクを行う。
その結果, 標準強化学習と比較して, 安全でない行動が桁違いに減少することが示された。
関連論文リスト
- ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - OccGaussian: 3D Gaussian Splatting for Occluded Human Rendering [55.50438181721271]
表面レンダリングにNeRFを用いた従来手法では,閉鎖領域の復元には1日以上,閉塞領域のレンダリングには数秒を要していた。
OccGaussianは3D Gaussian Splattingをベースとして6分以内でトレーニングが可能で,最大160FPSまでの高品質な人体レンダリングを実現する。
論文 参考訳(メタデータ) (2024-04-12T13:00:06Z) - Reducing Training Demands for 3D Gait Recognition with Deep Koopman
Operator Constraints [8.382355998881879]
我々は、周期的な歩行の性質に対して教師なしの運動規則化を提供する、Koopman演算子理論に基づく新しい線形力学系(LDS)モジュールと損失を導入する。
また、3Dモデリング手法は他の3D歩行法よりも、通常のバッグキャリングや衣服の変化条件下での視点変化を克服する方が優れていることも示している。
論文 参考訳(メタデータ) (2023-08-14T21:39:33Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Robust Reinforcement Learning-based Autonomous Driving Agent for
Simulation and Real World [0.0]
本稿では,Deep Q-Networks (DQN) を用いた自律型ロボット制御を実現するDRLベースのアルゴリズムを提案する。
本手法では,エージェントはシミュレーション環境で訓練され,シミュレーション環境と実環境環境の両方をナビゲートすることができる。
トレーニングされたエージェントは限られたハードウェアリソース上で動作することができ、そのパフォーマンスは最先端のアプローチに匹敵する。
論文 参考訳(メタデータ) (2020-09-23T15:23:54Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data [0.0]
単眼カメラデータに基づく3次元物体検出が自動運転の鍵となる。
近年のディープラーニング手法は, 単一の画像から深度情報を復元する有望な結果を示す。
本稿では,深度推定の異なるパラメータ化が可能な3次元物体検出パイプラインの性能評価を行う。
論文 参考訳(メタデータ) (2020-05-15T09:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。