論文の概要: Thompson Sampling for Parameterized Markov Decision Processes with
Uninformative Actions
- arxiv url: http://arxiv.org/abs/2305.07844v1
- Date: Sat, 13 May 2023 06:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:16:56.979642
- Title: Thompson Sampling for Parameterized Markov Decision Processes with
Uninformative Actions
- Title(参考訳): 不定形作用をもつパラメータ化マルコフ決定過程に対するトンプソンサンプリング
- Authors: Michael Gimelfarb and Michael Jong Kim
- Abstract要約: 本研究では,重要パラメータが未知であり,ベイズ推定を用いて学習しなければならないパラメータ化MDPについて検討する。
このようなモデルのキーとなる特徴は、未知のパラメータに関する情報を提供する「非形式的」なアクションの存在である。
- 参考スコア(独自算出の注目度): 1.0152838128195465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study parameterized MDPs (PMDPs) in which the key parameters of interest
are unknown and must be learned using Bayesian inference. One key defining
feature of such models is the presence of "uninformative" actions that provide
no information about the unknown parameters. We contribute a set of assumptions
for PMDPs under which Thompson sampling guarantees an asymptotically optimal
expected regret bound of $O(T^{-1})$, which are easily verified for many
classes of problems such as queuing, inventory control, and dynamic pricing.
- Abstract(参考訳): 興味の主パラメータが不明であり,ベイズ推定を用いて学習しなければならないパラメータ化MDP(PMDP)について検討した。
このようなモデルのキーとなる特徴は、未知のパラメータに関する情報を提供する「非形式的」なアクションの存在である。
我々はpmdpに対する一連の仮定を提案し、トンプソンサンプリングは、キューイング、在庫管理、動的価格といった多くの問題に対して容易に検証できる、漸近的に最適な期待後悔値である$o(t^{-1})$を保証する。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Evaluating the Impact of Local Differential Privacy on Utility Loss via
Influence Functions [11.504012974208466]
我々は、特定のプライバシパラメータ値がモデルのテスト損失にどのように影響するかについて、インフルエンス関数が洞察を与える能力を示す。
提案手法により,データキュレーターは,プライバシ・ユーティリティのトレードオフに最も適したプライバシパラメータを選択できる。
論文 参考訳(メタデータ) (2023-09-15T18:08:24Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Practical Differentially Private Hyperparameter Tuning with Subsampling [8.022555128083026]
そこで我々は,ランダムな探索サンプルの数がランダム化されるような,微分プライベート(DP)機械学習(ML)アルゴリズムの新たなクラスを提案する。
我々は,これらの手法のDP境界と計算コストの両方を,機密データのランダムな部分集合のみを用いて下げることに重点を置いている。
本稿では,提案手法に対するR'enyi差分プライバシー解析を行い,プライバシー利用のトレードオフの改善につながることを実験的に示す。
論文 参考訳(メタデータ) (2023-01-27T21:01:58Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Locally Interpretable Model Agnostic Explanations using Gaussian
Processes [2.9189409618561966]
LIME(Local Interpretable Model-Agnostic Explanations)は、単一インスタンスの予測を説明する一般的なテクニックである。
局所的解釈可能なモデルのガウス過程(GP)に基づくバリエーションを提案する。
提案手法は,LIMEに比べてはるかに少ないサンプルを用いて忠実な説明を生成可能であることを示す。
論文 参考訳(メタデータ) (2021-08-16T05:49:01Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Minimax Regret Optimisation for Robust Planning in Uncertain Markov
Decision Processes [3.5289688061934963]
Minimaxの後悔は、堅牢なポリシーを見つけるためにUncertain MDPの計画の目的として提案されています。
政策の後悔を計算するためにベルマン方程式を導入する。
独立した不確実性を有するUMDPに対して,minimaxの後悔を正確に最適化できることが示される。
論文 参考訳(メタデータ) (2020-12-08T18:48:14Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。