論文の概要: Marginal MAP Estimation for Inverse RL under Occlusion with Observer
Noise
- arxiv url: http://arxiv.org/abs/2109.07788v1
- Date: Thu, 16 Sep 2021 08:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 00:10:19.296975
- Title: Marginal MAP Estimation for Inverse RL under Occlusion with Observer
Noise
- Title(参考訳): オブザーバノイズを伴う咬合下の逆rlの辺縁マップ推定
- Authors: Prasanth Sengadu Suresh, Prashant Doshi
- Abstract要約: 騒音や部分的に観察可能な実演から課題に携わる専門家の行動選好を学習する問題を考える。
逆強化学習(IRL)の従来の手法は、欠落部分を省略するか、期待最大化の一部として推測するかのアプローチを取る。
本稿では, 軌道の閉塞部分の辺縁化を図り, 有名なベイズ最大位置推定法(MAP) IRL法を一般化する手法を提案する。
- 参考スコア(独自算出の注目度): 9.670578317106182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning the behavioral preferences of an expert
engaged in a task from noisy and partially-observable demonstrations. This is
motivated by real-world applications such as a line robot learning from
observing a human worker, where some observations are occluded by environmental
objects that cannot be removed. Furthermore, robotic perception tends to be
imperfect and noisy. Previous techniques for inverse reinforcement learning
(IRL) take the approach of either omitting the missing portions or inferring it
as part of expectation-maximization, which tends to be slow and prone to local
optima. We present a new method that generalizes the well-known Bayesian
maximum-a-posteriori (MAP) IRL method by marginalizing the occluded portions of
the trajectory. This is additionally extended with an observation model to
account for perception noise. We show that the marginal MAP (MMAP) approach
significantly improves on the previous IRL technique under occlusion in both
formative evaluations on a toy problem and in a summative evaluation on an
onion sorting line task by a robot.
- Abstract(参考訳): 騒音や部分的に観察可能な実演から課題に携わる専門家の行動選好を学習する問題を考える。
これは、人間の作業員を観察することから学習するラインロボットのような現実世界の応用によって動機付けられている。
さらに、ロボットの知覚は不完全でうるさい傾向がある。
逆強化学習(irl:inverse reinforcement learning)以前の手法では、欠落部分を省略するか、期待最大化の一部として推論するかのどちらかのアプローチをとっていた。
本稿では, 軌道の閉塞部分の辺縁化を図り, 有名なベイズ最大位置法(MAP) IRL法を一般化する手法を提案する。
これは知覚ノイズを考慮した観測モデルで拡張される。
おもちゃ問題に対する形成的評価と,ロボットによるオニオン分類ラインタスクの要約評価の両方において,咬合下の以前のirl技術において,マージンマップ(mmap)アプローチが著しく改善することを示す。
関連論文リスト
- Noise-Free Explanation for Driving Action Prediction [11.330363757618379]
我々は, この欠陥を解消するための, 実装が容易だが効果的な方法を提案する: 平滑な騒音ノルム注意(SNNA)
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
論文 参考訳(メタデータ) (2024-07-08T19:21:24Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Direct Unsupervised Denoising [60.71146161035649]
教師なしのデノイザは、MMSE推定のような単一の予測を直接生成しない。
本稿では,VAEと並んで決定論的ネットワークを訓練し,中心的な傾向を直接予測するアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-27T13:02:12Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - On the Theoretical Properties of Noise Correlation in Stochastic
Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。
これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文 参考訳(メタデータ) (2022-09-19T16:32:22Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - A Hierarchical Bayesian model for Inverse RL in Partially-Controlled
Environments [0.0]
我々は、専門家の観測と、背景となる要素の観測の両方を取り入れた階層的ベイズモデルを提案する。
特に,本手法は,対象の軌跡について完全な知識を持つために,他の比較手法よりも優れている。
論文 参考訳(メタデータ) (2021-07-13T02:38:14Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Augmented Behavioral Cloning from Observation [14.45796459531414]
観察からの模倣(英:imitation from Observation)とは、専門家の行動の模倣法をエージェントに教える技法である。
我々は4つの異なる環境における最先端のアプローチよりも大きなマージンで優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-28T13:56:36Z) - An Adversarial Objective for Scalable Exploration [39.482557864395005]
モデルに基づく好奇心は、最適サンプリングのためのアクティブな学習アプローチと、探索のための情報ゲインに基づくインセンティブを組み合わせる。
既存のモデルに基づく好奇心法では,多くの予測計画パイプラインへのスケールアップに苦慮するアプローチを用いて,予測の不確実性を近似する。
判別器ネットワークが与えるスコアを最小限に抑える逆好奇心法を用いて,これらのスケーラビリティ問題に対処する。
論文 参考訳(メタデータ) (2020-03-13T02:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。