論文の概要: Learning What To Do by Simulating the Past
- arxiv url: http://arxiv.org/abs/2104.03946v1
- Date: Thu, 8 Apr 2021 17:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:21:10.057903
- Title: Learning What To Do by Simulating the Past
- Title(参考訳): 過去をシミュレートして何をすべきかを学ぶ
- Authors: David Lindner, Rohin Shah, Pieter Abbeel, Anca Dragan
- Abstract要約: 学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
- 参考スコア(独自算出の注目度): 76.86449554580291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since reward functions are hard to specify, recent work has focused on
learning policies from human feedback. However, such approaches are impeded by
the expense of acquiring such feedback. Recent work proposed that agents have
access to a source of information that is effectively free: in any environment
that humans have acted in, the state will already be optimized for human
preferences, and thus an agent can extract information about what humans want
from the state. Such learning is possible in principle, but requires simulating
all possible past trajectories that could have led to the observed state. This
is feasible in gridworlds, but how do we scale it to complex tasks? In this
work, we show that by combining a learned feature encoder with learned inverse
models, we can enable agents to simulate human actions backwards in time to
infer what they must have done. The resulting algorithm is able to reproduce a
specific skill in MuJoCo environments given a single state sampled from the
optimal policy for that skill.
- Abstract(参考訳): 報酬関数は指定が難しいため、最近の研究は人間のフィードバックから学ぶポリシーに焦点を当てている。
しかし、そのようなアプローチはそのようなフィードバックを得るコストがかかる。
近年の研究では、エージェントが効果的に自由な情報ソースにアクセスできることが提案されている。人間が行動したあらゆる環境において、状態はすでに人間の好みに最適化されており、エージェントは状態から人間が望むものに関する情報を抽出することができる。
このような学習は原則として可能であるが、観測された状態につながる可能性のある全ての過去の軌跡をシミュレートする必要がある。
これはgridworldsでは実現可能ですが、どのように複雑なタスクにスケールするか?
本研究では,学習した特徴エンコーダと学習した逆モデルを組み合わせることで,エージェントが人間の行動のシミュレーションに時間をかけて行なわなければならないことを推測できることを示す。
得られたアルゴリズムは、そのスキルの最適なポリシーからサンプリングされた単一の状態から、MuJoCo環境で特定のスキルを再現することができる。
関連論文リスト
- TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction [25.36756787147331]
シミュレーションの学習と実世界への学習は、ジェネラリストロボットを可能にする可能性がある。
そこで本研究では,Human-in-the-loopフレームワークをベースとしたSIM-to-real転送を実現するためのデータ駆動型手法を提案する。
本手法は,家具組立などの複雑かつ接触に富んだ操作作業において,シミュレートから現実への伝達を成功させることができることを示す。
論文 参考訳(メタデータ) (2024-05-16T17:59:07Z) - Dexterous Functional Grasping [39.15442658671798]
本稿では,両世界の長所を組み合わさって,対象物の機能的把握を実現する。
少数の人的データを用いてRLの探索空間を削減するための固有グラスプの新規な応用を提案する。
固有グラフプ動作空間は,シミュレーションにおいてベースラインを上回り,実戦におけるハードコードグリップよりも優れ,訓練された人間の遠隔操作者よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-12-05T18:59:23Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Safe Deep RL in 3D Environments using Human Feedback [15.038298345682556]
ReQueSTは、安全な人間の軌道から環境の神経シミュレータを学習することで問題を解決することを目的としている。
実際の人間からフィードバックを得た複雑な3D環境において、このアプローチが実現可能かどうかはまだ分かっていない。
その結果, 標準強化学習と比較して, 不安全行動の桁違いの減少が認められた。
論文 参考訳(メタデータ) (2022-01-20T10:26:34Z) - Combining Learning from Human Feedback and Knowledge Engineering to
Solve Hierarchical Tasks in Minecraft [1.858151490268935]
我々は2021年のNeurIPS Competition MineRL BASALT Challenge: Learning from Human Feedback in Minecraftで優勝し、最も人間らしいエージェントを受賞したソリューションを提示する。
我々のアプローチは、利用可能な人間の実演データを用いて、ナビゲーションのための模倣学習ポリシーを訓練する。
我々は、このハイブリッドインテリジェンスアプローチを、エンドツーエンドの機械学習と純粋にエンジニアリングされたソリューションの両方と比較し、人間の評価者によって判断される。
論文 参考訳(メタデータ) (2021-12-07T04:12:23Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Feature Expansive Reward Learning: Rethinking Human Input [31.413656752926208]
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。