論文の概要: Bayesian Inference of Contextual Bandit Policies via Empirical Likelihood
- arxiv url: http://arxiv.org/abs/2602.10608v1
- Date: Wed, 11 Feb 2026 07:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.556648
- Title: Bayesian Inference of Contextual Bandit Policies via Empirical Likelihood
- Title(参考訳): 経験的嗜好による文脈的帯域政策のベイズ推定
- Authors: Jiangrong Ouyang, Mingming Gong, Howard Bondell,
- Abstract要約: 政策推論は文脈的盗賊問題において重要な役割を果たす。
我々は,複数の文脈的バンディットポリシーの合同分析のためのベイズ推定法を開発するために,経験的可能性を利用する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy inference plays an essential role in the contextual bandit problem. In this paper, we use empirical likelihood to develop a Bayesian inference method for the joint analysis of multiple contextual bandit policies in finite sample regimes. The proposed inference method is robust to small sample sizes and is able to provide accurate uncertainty measurements for policy value evaluation. In addition, it allows for flexible inferences on policy comparison with full uncertainty quantification. We demonstrate the effectiveness of the proposed inference method using Monte Carlo simulations and its application to an adolescent body mass index data set.
- Abstract(参考訳): 政策推論は文脈的盗賊問題において重要な役割を果たす。
本稿では,有限標本状態における複数の文脈的バンディットポリシーの合同解析のためのベイズ推定法の開発に,経験的可能性を用いる。
提案手法は小さなサンプルサイズに対して頑健であり, 正確な不確実性の測定を行うことができる。
さらに、完全な不確実性定量化と政策比較の柔軟な推論を可能にする。
モンテカルロシミュレーションを用いた提案手法の有効性を実証し,その青年期の身体質量指数データセットへの応用について述べる。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - A Convex Framework for Confounding Robust Inference [21.918894096307294]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
本稿では,凸プログラミングを用いてポリシー値のシャープな下限を推定する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-09-21T19:45:37Z) - Auditing Fairness by Betting [43.515287900510934]
我々は,デプロイされた分類モデルと回帰モデルの公平性を評価するための,実用的で効率的で非パラメトリックな手法を提供する。
我々の手法は逐次的であり、入ってくるデータの継続的なモニタリングを可能にする。
提案手法の有効性を3つのベンチマークフェアネスデータセットに示す。
論文 参考訳(メタデータ) (2023-05-27T20:14:11Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。