論文の概要: Necessary and Sufficient Conditions for Inverse Reinforcement Learning
of Bayesian Stopping Time Problems
- arxiv url: http://arxiv.org/abs/2007.03481v4
- Date: Sun, 20 Feb 2022 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 19:32:08.274248
- Title: Necessary and Sufficient Conditions for Inverse Reinforcement Learning
of Bayesian Stopping Time Problems
- Title(参考訳): ベイズ停止時間問題の逆強化学習に必要な条件と十分条件
- Authors: Kunal Pattanayak and Vikram Krishnamurthy
- Abstract要約: 本稿では,ベイジアン停止時間問題に対する逆強化学習(IRL)フレームワークを提案する。
ベイズ決定器の動作を観察することにより、これらの動作がコスト関数の最適化と一致しているかどうかを識別するのに必要かつ十分な条件を提供する。
我々のIRLアルゴリズムは最適性を同定し、コスト関数の値が設定された推定値を構成する。
- 参考スコア(独自算出の注目度): 22.498689292081156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an inverse reinforcement learning~(IRL) framework for
Bayesian stopping time problems. By observing the actions of a Bayesian
decision maker, we provide a necessary and sufficient condition to identify if
these actions are consistent with optimizing a cost function. In a Bayesian
(partially observed) setting, the inverse learner can at best identify
optimality wrt the observed actions. Our IRL algorithm identifies optimality
and then constructs set valued estimates of the cost function. To achieve this
IRL objective, we use novel ideas from Bayesian revealed preferences stemming
from microeconomics. We illustrate the proposed IRL scheme using two important
examples of stopping time problems, namely, sequential hypothesis testing and
Bayesian search. Finally, for finite datasets, we propose an IRL detection
algorithm and give finite sample bounds on its error probabilities.
- Abstract(参考訳): 本稿では,ベイジアン停止時間問題に対する逆強化学習(IRL)フレームワークを提案する。
ベイズ意思決定者の行動を観察することにより、これらの行動がコスト関数の最適化と一致するかどうかを識別するための必要十分条件を提供する。
ベイズ的(部分的に観察される)設定では、逆学習者は観測された動作を最適に識別することができる。
irlアルゴリズムは最適性を同定し、コスト関数の値付き推定値を構成する。
このIRLの目的を達成するために、ベイジアンによる新しいアイデアを用いて、ミクロ経済学から派生した嗜好を明らかにした。
提案手法は, 逐次仮説検証とベイズ探索という, 時間停止問題の2つの重要な例を用いて述べる。
最後に,有限データセットに対してirl検出アルゴリズムを提案し,その誤差確率について有限サンプル境界を与える。
関連論文リスト
- Stopping Bayesian Optimization with Probabilistic Regret Bounds [1.4141453107129403]
事実上の停止規則を$(epsilon, delta)$-criterionに置き換えることを検討する。
本研究では,後部から引き出された限られた数を用いて,この条件を実際に検証する方法を示す。
論文 参考訳(メタデータ) (2024-02-26T18:34:58Z) - Adaptive importance sampling for heavy-tailed distributions via
$\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。
我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。
これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文 参考訳(メタデータ) (2023-10-25T14:07:08Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Robust Bayesian Recourse [13.526999070658231]
アルゴリズムのリコースは、好ましくない機械学習の決定を覆すために、情報的なフィードバックを推奨することを目的としている。
本稿では,後続確率オッズ比を最小化するモデル非依存リコースであるベイズ的リコースを紹介する。
我々は、機械学習モデルパラメータの将来の変更に対処する目的で、min-maxのロバストな競合を提示する。
論文 参考訳(メタデータ) (2022-06-22T04:17:17Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Bayesian Optimization of Risk Measures [7.799648230758491]
我々は、$rho[F(x, W) ]$ という形の目的関数のベイズ最適化を考える。
目的関数の構造を利用してサンプリング効率を大幅に向上する新しいベイズ最適化アルゴリズム群を提案する。
論文 参考訳(メタデータ) (2020-07-10T18:20:46Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - On Bayesian Search for the Feasible Space Under Computationally
Expensive Constraints [0.0]
実現可能空間と実現不可能空間の境界に解が存在する確率を結合した新しい獲得関数を提案する。
実験により提案機能の有効性が確認された。
論文 参考訳(メタデータ) (2020-04-23T10:22:32Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。