論文の概要: IRL with Partial Observations using the Principle of Uncertain Maximum
Entropy
- arxiv url: http://arxiv.org/abs/2208.06988v1
- Date: Mon, 15 Aug 2022 03:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 15:07:46.494341
- Title: IRL with Partial Observations using the Principle of Uncertain Maximum
Entropy
- Title(参考訳): 不確かさ最大エントロピー原理を用いた部分観測によるIRL
- Authors: Kenneth Bogert, Yikang Gui, and Prashant Doshi
- Abstract要約: 我々は、不確実な最大エントロピーの原理を導入し、期待最大化に基づく解を示す。
我々は,最大因果エントロピー逆強化学習領域において,ノイズデータに対する頑健性の改善を実験的に実証した。
- 参考スコア(独自算出の注目度): 8.296684637620553
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The principle of maximum entropy is a broadly applicable technique for
computing a distribution with the least amount of information possible while
constrained to match empirically estimated feature expectations. However, in
many real-world applications that use noisy sensors computing the feature
expectations may be challenging due to partial observation of the relevant
model variables. For example, a robot performing apprenticeship learning may
lose sight of the agent it is learning from due to environmental occlusion. We
show that in generalizing the principle of maximum entropy to these types of
scenarios we unavoidably introduce a dependency on the learned model to the
empirical feature expectations. We introduce the principle of uncertain maximum
entropy and present an expectation-maximization based solution generalized from
the principle of latent maximum entropy. Finally, we experimentally demonstrate
the improved robustness to noisy data offered by our technique in a maximum
causal entropy inverse reinforcement learning domain.
- Abstract(参考訳): 最大エントロピーの原理(英: principle of maximum entropy)は、経験的に推定される特徴の期待に合致するように制約されながら、可能な情報の少ない分布を計算するための広く適用可能な手法である。
しかし、ノイズの多いセンサを演算する多くの実世界のアプリケーションでは、関連するモデル変数を部分的に観察するため、機能期待は困難である。
例えば、見習い学習を行うロボットは、環境閉塞によって学習しているエージェントを見失うことがある。
これらのシナリオに対して最大エントロピーの原理を一般化することで、経験的特徴期待に学習モデルへの依存性を必然的に導入できることが示される。
我々は不確実な最大エントロピーの原理を導入し、潜在最大エントロピーの原理から一般化された期待最大化に基づく解を提案する。
最後に,最大因果エントロピー逆強化学習領域におけるノイズデータに対する頑健性の改善を実験的に実証した。
関連論文リスト
- The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough [40.82741665804367]
そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。
観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T17:00:13Z) - How to Explore with Belief: State Entropy Maximization in POMDPs [40.82741665804367]
我々は、**状態で定義された目的の1次緩和に対処するために、メモリと効率的な*政治*手法を開発する。
本稿では、アプリケーションの課題を満たすより現実的な領域に状態エントロピーを一般化することを目的とする。
論文 参考訳(メタデータ) (2024-06-04T13:16:34Z) - The Principle of Uncertain Maximum Entropy [0.0]
古典原理を一般化し、解釈可能な解を提供する不確実な最大エントロピーと呼ばれる新しい原理を提案する。
我々は新しい原理の解を見つけるために凸近似と期待最大化に基づくアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-17T00:45:41Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Generalisation and the Risk--Entropy Curve [0.49723239539321284]
学習機械の予測一般化性能は、リスクの分布やそれに相当するエントロピーによって決定されることを示す。
結果はMarkov Chain Monte Carlo技術を用いて、さまざまなディープニューラルネットワークモデルに対して提示される。
論文 参考訳(メタデータ) (2022-02-15T12:19:10Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Notes on Generalizing the Maximum Entropy Principle to Uncertain Data [0.0]
最大エントロピーの原理を最小限の情報量で計算する。
本手法は最大エントロピーと潜在最大エントロピーの原理を一般化することを示す。
限られたデータの場合、特徴期待制約にエラー項を追加するための一般的な正則化手法について論じる。
論文 参考訳(メタデータ) (2021-09-09T19:43:28Z) - Loss Bounds for Approximate Influence-Based Abstraction [81.13024471616417]
影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。
本稿では,理論的観点から,そのような手法の性能について考察する。
交叉エントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学習するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-03T15:33:10Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。