論文の概要: Exploiting Concavity Information in Gaussian Process Contextual Bandit Optimization
- arxiv url: http://arxiv.org/abs/2503.10836v1
- Date: Thu, 13 Mar 2025 19:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:15.290910
- Title: Exploiting Concavity Information in Gaussian Process Contextual Bandit Optimization
- Title(参考訳): ガウス過程コンテキスト帯域最適化における凹凸情報の爆発的抽出
- Authors: Kevin Li, Eric Laber,
- Abstract要約: 文脈的帯域幅フレームワークは、逐次最適化問題を解決するために広く使われている。
我々は、平均報酬が各固定されたコンテキストに対するアクションの凹凸関数であることが知られている設定について検討する。
本稿では,この凹凸情報に基づいてベイジアンガウス過程モデルの後部を条件にすることで,最適化を加速するコンテキスト的帯域幅アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.1046873879077794
- License:
- Abstract: The contextual bandit framework is widely used to solve sequential optimization problems where the reward of each decision depends on auxiliary context variables. In settings such as medicine, business, and engineering, the decision maker often possesses additional structural information on the generative model that can potentially be used to improve the efficiency of bandit algorithms. We consider settings in which the mean reward is known to be a concave function of the action for each fixed context. Examples include patient-specific dose-response curves in medicine and expected profit in online advertising auctions. We propose a contextual bandit algorithm that accelerates optimization by conditioning the posterior of a Bayesian Gaussian Process model on this concavity information. We design a novel shape-constrained reward function estimator using a specially chosen regression spline basis and constrained Gaussian Process posterior. Using this model, we propose a UCB algorithm and derive corresponding regret bounds. We evaluate our algorithm on numerical examples and test functions used to study optimal dosing of Anti-Clotting medication.
- Abstract(参考訳): 文脈帯域フレームワークは、各決定の報酬が補助的文脈変数に依存する逐次最適化問題を解決するために広く用いられている。
医療、ビジネス、エンジニアリングなどの分野では、意思決定者はしばしば、バンディットアルゴリズムの効率を改善するために使用可能な生成モデルに関する追加構造情報を持っている。
我々は、平均報酬が各固定されたコンテキストに対するアクションの凹凸関数であることが知られている設定について検討する。
例えば、医療における患者固有の線量応答曲線や、オンライン広告オークションで期待される利益などがある。
本稿では,この凹凸情報に基づいてベイジアンガウス過程モデルの後部を条件にすることで,最適化を加速するコンテキスト的帯域幅アルゴリズムを提案する。
我々は、特殊選択された回帰スプラインベースと制約付きガウス過程後部を用いた、新しい形状制約付報酬関数推定器を設計する。
このモデルを用いて, UCBアルゴリズムを提案し, 対応する残差を導出する。
我々は,抗クロッティング薬の服用を最適に行うための数値例と試験関数について,本アルゴリズムの評価を行った。
関連論文リスト
- Indirect Query Bayesian Optimization with Integrated Feedback [17.66813850517961]
我々は,未知関数の条件付き期待値$f$を最適化することで,統合されたフィードバックが与えられるような,ベイズ最適化の新たなクラスを開発する。
目的は、条件分布によって変換された空間を適応的にクエリし、観察することで、$f$のグローバルな最適値を見つけることである。
これは、プライバシ、ハードウェア、計算上の制約による直接的なフィードバックにアクセスできない現実世界のアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2024-12-18T07:20:33Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Random Exploration in Bayesian Optimization: Order-Optimal Regret and
Computational Efficiency [18.17090625880964]
本研究では,分布から引き出されたランダムサンプルを用いて領域を探索する手法について検討する。
このランダム探索手法が最適誤差率を達成することを示す。
論文 参考訳(メタデータ) (2023-10-23T20:30:44Z) - Rollout Algorithms and Approximate Dynamic Programming for Bayesian
Optimization and Sequential Estimation [0.0]
逐次推定を含む様々な問題に適用可能な、統一された近似的動的プログラミングフレームワークを提供する。
まず,最適化を目的とした代理コスト関数の構築を検討し,ベイズ最適化の特別な場合に着目した。
次に、最適測定選択を用いた確率ベクトルの逐次推定のより一般的な場合とその適応制御問題への応用について述べる。
論文 参考訳(メタデータ) (2022-12-15T17:50:23Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Bayesian Optimisation for Constrained Problems [0.0]
本稿では,制約を扱える知恵グラディエント獲得関数の新たな変種を提案する。
我々は、このアルゴリズムを、他の4つの最先端制約されたベイズ最適化アルゴリズムと比較し、その優れた性能を実証する。
論文 参考訳(メタデータ) (2021-05-27T15:43:09Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。