論文の概要: A Hierarchical Bayesian model for Inverse RL in Partially-Controlled
Environments
- arxiv url: http://arxiv.org/abs/2107.05818v1
- Date: Tue, 13 Jul 2021 02:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 00:45:48.690655
- Title: A Hierarchical Bayesian model for Inverse RL in Partially-Controlled
Environments
- Title(参考訳): 部分制御環境における逆RLの階層的ベイズモデル
- Authors: Kenneth Bogert (University of North Carolina Asheville) and Prashant
Doshi (University of Georgia)
- Abstract要約: 我々は、専門家の観測と、背景となる要素の観測の両方を取り入れた階層的ベイズモデルを提案する。
特に,本手法は,対象の軌跡について完全な知識を持つために,他の比較手法よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots learning from observations in the real world using inverse
reinforcement learning (IRL) may encounter objects or agents in the
environment, other than the expert, that cause nuisance observations during the
demonstration. These confounding elements are typically removed in
fully-controlled environments such as virtual simulations or lab settings. When
complete removal is impossible the nuisance observations must be filtered out.
However, identifying the source of observations when large amounts of
observations are made is difficult. To address this, we present a hierarchical
Bayesian model that incorporates both the expert's and the confounding
elements' observations thereby explicitly modeling the diverse observations a
robot may receive. We extend an existing IRL algorithm originally designed to
work under partial occlusion of the expert to consider the diverse
observations. In a simulated robotic sorting domain containing both occlusion
and confounding elements, we demonstrate the model's effectiveness. In
particular, our technique outperforms several other comparative methods, second
only to having perfect knowledge of the subject's trajectory.
- Abstract(参考訳): 逆強化学習(IRL)を用いて現実世界の観測から学習するロボットは、専門家以外の環境の物体やエージェントに遭遇し、デモンストレーション中に迷惑な観察を引き起こすことがある。
これらの結合要素は通常、仮想シミュレーションや実験室の設定など、完全に制御された環境で取り除かれる。
完全な除去が不可能な場合には、ニュアンス観測をフィルタリングしなければならない。
しかし,大量の観測を行う際の観測源の同定は困難である。
これに対処するために,我々は,ロボットが受ける多様な観察を明示的にモデル化するために,エキスパートとコンファウンディング要素の両方を組み込んだ階層ベイズモデルを提案する。
我々は, 従来のirlアルゴリズムを, 専門者の部分的咬合下で動作するように設計し, 多様な観察を考慮できるように拡張する。
咬合要素と結合要素の両方を含むシミュレーションロボットソートドメインでは,モデルの有効性を示す。
特に,本手法は,対象の軌跡について完全な知識を持つために,他の比較手法よりも優れている。
関連論文リスト
- A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Object-centric architectures enable efficient causal representation
learning [51.6196391784561]
観測対象が複数の物体である場合, 生成関数はもはや注入的ではなく, 実際に乱れは生じないことを示す。
スパース摂動からの弱い監督を利用して各オブジェクトのプロパティを乱すオブジェクト中心アーキテクチャを開発する。
このアプローチはユークリッド空間にエンコードする同等のアプローチよりもはるかに少ない摂動を必要とするという意味で、よりデータ効率が高い。
論文 参考訳(メタデータ) (2023-10-29T16:01:03Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Provably Sample-Efficient RL with Side Information about Latent Dynamics [12.461789905893026]
本研究では,RLエージェントが状態空間の構造に関する抽象的な知識にアクセスできるような環境下での強化学習について検討する。
我々は,対象領域におけるロバストなポリシーを,地平線上にあるサンプルの複雑さで学習するTASIDというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-27T21:07:03Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Marginal MAP Estimation for Inverse RL under Occlusion with Observer
Noise [9.670578317106182]
騒音や部分的に観察可能な実演から課題に携わる専門家の行動選好を学習する問題を考える。
逆強化学習(IRL)の従来の手法は、欠落部分を省略するか、期待最大化の一部として推測するかのアプローチを取る。
本稿では, 軌道の閉塞部分の辺縁化を図り, 有名なベイズ最大位置推定法(MAP) IRL法を一般化する手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:20:52Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - SPACE: Unsupervised Object-Oriented Scene Representation via Spatial
Attention and Decomposition [26.42139271058149]
本研究では,空間アテンションとシーンミキシングの最も優れた組み合わせを組み合わせた,SPACEと呼ばれる潜在変数生成モデルを提案する。
本研究では, SPACEがSPAIR, IODINE, GENESISと比較して, 上述の特性を連続的に達成する実験を, Atari および 3D-Rooms で行った。
論文 参考訳(メタデータ) (2020-01-08T07:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。