論文の概要: Contextual Thompson Sampling via Generation of Missing Data
- arxiv url: http://arxiv.org/abs/2502.07064v1
- Date: Mon, 10 Feb 2025 21:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:49.410530
- Title: Contextual Thompson Sampling via Generation of Missing Data
- Title(参考訳): 欠損データ生成によるコンテキストトンプソンサンプリング
- Authors: Kelly W. Zhang, Tiffany Tianhui Cai, Hongseok Namkoong, Daniel Russo,
- Abstract要約: 我々は、Thompsonが文脈帯域幅アルゴリズムをサンプリングするフレームワークを提案する。
我々のアルゴリズムは、不確実性は、欠落しているが観測可能な将来的な結果から生じるものとして扱う。
この概念化にインスパイアされた我々のアルゴリズムは、各意思決定時に、生成モデルを用いて、将来の結果の欠落を示唆する。
- 参考スコア(独自算出の注目度): 11.713451719120707
- License:
- Abstract: We introduce a framework for Thompson sampling contextual bandit algorithms, in which the algorithm's ability to quantify uncertainty and make decisions depends on the quality of a generative model that is learned offline. Instead of viewing uncertainty in the environment as arising from unobservable latent parameters, our algorithm treats uncertainty as stemming from missing, but potentially observable, future outcomes. If these future outcomes were all observed, one could simply make decisions using an "oracle" policy fit on the complete dataset. Inspired by this conceptualization, at each decision-time, our algorithm uses a generative model to probabilistically impute missing future outcomes, fits a policy using the imputed complete dataset, and uses that policy to select the next action. We formally show that this algorithm is a generative formulation of Thompson Sampling and prove a state-of-the-art regret bound for it. Notably, our regret bound i) depends on the probabilistic generative model only through the quality of its offline prediction loss, and ii) applies to any method of fitting the "oracle" policy, which easily allows one to adapt Thompson sampling to decision-making settings with fairness and/or resource constraints.
- Abstract(参考訳): 我々は、Thompson氏が文脈的帯域幅アルゴリズムをサンプリングするためのフレームワークを紹介し、不確実性を定量化し、決定するアルゴリズムの能力は、オフラインで学習される生成モデルの品質に依存する。
我々のアルゴリズムは、環境の不確実性を観測不可能な潜在パラメータから生じるものとみなす代わりに、不確実性は、欠落から生じるが観測可能な将来の結果から生じるものとして扱う。
これらの将来の結果がすべて観測された場合、完全なデータセットに適合する"オークル"ポリシーを使って、単に決定を下すだけでよい。
この概念化にインスパイアされた我々のアルゴリズムは、各決定時に生成モデルを用いて、欠落した将来の結果を確率論的に予測し、インプットされた完全なデータセットを使用してポリシーに適合し、そのポリシーを使用して次のアクションを選択する。
我々は、このアルゴリズムがトンプソンサンプリングの生成的定式化であり、それに対する最先端の後悔を証明していることを正式に示す。
特に残念なことに
一 確率的生成モデルによつて、そのオフライン予測損失の品質によつて、
二 適正性及び/又は資源制約のある意思決定設定に容易にトンプソンサンプリングを適用することができる「奇策」ポリシーに適合するあらゆる方法に適用すること。
関連論文リスト
- Thompson Sampling for Infinite-Horizon Discounted Decision Processes [0.0]
我々はトンプソンサンプリングと呼ばれるサンプリングベースアルゴリズムの挙動を研究する。
標準の(予想された)後悔を分解することで、期待された後悔という新しい尺度を開発します。
論文 参考訳(メタデータ) (2024-05-14T01:01:05Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Bayes DistNet -- A Robust Neural Network for Algorithm Runtime
Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。
従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。
この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文 参考訳(メタデータ) (2020-12-14T01:15:39Z) - Adaptive Combinatorial Allocation [77.86290991564829]
割り当てが繰り返し選択され、戻り値は不明だが学習可能であり、決定には制約が伴う。
我々のモデルは、複雑な制約があっても、両側のマッチングと一方のマッチングをカバーしています。
論文 参考訳(メタデータ) (2020-11-04T15:02:59Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。