論文の概要: Nonparametric Bayesian Optimization for General Rewards
- arxiv url: http://arxiv.org/abs/2602.07411v1
- Date: Sat, 07 Feb 2026 07:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.609168
- Title: Nonparametric Bayesian Optimization for General Rewards
- Title(参考訳): 一般報酬に対する非パラメトリックベイズ最適化
- Authors: Zishi Zhang, Tao Ren, Yijie Peng,
- Abstract要約: 目的関数のリプシッツ連続性しか必要とせず、一般報酬設定において不一致保証を実現する最初のBOアルゴリズムを提案する。
本研究では,一般報酬に対する新たなTS後悔分析フレームワークを開発し,サロゲートモデルと真の報酬分布の総変動距離に関する後悔を関連づける。
実証的な結果は、特に非定常的、重尾的、または他の条件の悪い報酬の設定において、最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 4.696963700743491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on Bayesian optimization (BO) under reward model uncertainty. We propose the first BO algorithm that achieves no-regret guarantee in a general reward setting, requiring only Lipschitz continuity of the objective function and accommodating a broad class of measurement noise. The core of our approach is a novel surrogate model, termed as infinite Gaussian process ($\infty$-GP). It is a Bayesian nonparametric model that places a prior on the space of reward distributions, enabling it to represent a substantially broader class of reward models than classical Gaussian process (GP). The $\infty$-GP is used in combination with Thompson Sampling (TS) to enable effective exploration and exploitation. Correspondingly, we develop a new TS regret analysis framework for general rewards, which relates the regret to the total variation distance between the surrogate model and the true reward distribution. Furthermore, with a truncated Gibbs sampling procedure, our method is computationally scalable, incurring minimal additional memory and computational complexities compared to classical GP. Empirical results demonstrate state-of-the-art performance, particularly in settings with non-stationary, heavy-tailed, or other ill-conditioned rewards.
- Abstract(参考訳): この研究は、報酬モデルの不確実性の下でのベイズ最適化(BO)に焦点を当てる。
本稿では,汎用的な報奨設定において,目的関数のリプシッツ連続性のみを必要とせず,幅広い種類の測定ノイズを収容する,ゼロ値保証を実現する最初のBOアルゴリズムを提案する。
我々のアプローチの核は、無限ガウス過程(\infty$-GP)と呼ばれる新しい代理モデルである。
ベイズ的非パラメトリックモデルであり、古典ガウス過程 (GP) よりもはるかに広い報酬モデルのクラスを表現することができる。
$\infty$-GPは、トンプソンサンプリング(TS)と組み合わせて、効果的な探索と搾取を可能にする。
これに対応して,サロゲートモデルと真の報酬分布の総変動距離に関する,一般報酬に対する新たなTS後悔分析フレームワークを開発した。
さらに,ギブスサンプリング法では,従来のGPと比較して,メモリと計算の複雑さが最小限に抑えられた。
実証的な結果は、特に非定常的、重尾的、または他の条件の悪い報酬の設定において、最先端のパフォーマンスを示す。
関連論文リスト
- Thompson Sampling via Fine-Tuning of LLMs [68.1722422968855]
我々は,スケーラブルな大規模獲得関数を必要としないトンプソンサンプリングに基づく代替案を提案する。
我々のアプローチであるThompson Smpling via Finening (ToSFiT) は、プロンプト条件付き言語モデルに埋め込まれた事前知識を活用し、後方に向けて漸進的に適応する。
分析の結果,ToSFiTアルゴリズムの基盤となる極大性原理の後続確率への注意的適応が重要であることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-15T09:13:59Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Surrogate modeling for Bayesian optimization beyond a single Gaussian
process [62.294228304646516]
本稿では,探索空間の活用と探索のバランスをとるための新しいベイズ代理モデルを提案する。
拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。
提案した EGP-TS を大域的最適に収束させるため,ベイズ的後悔の概念に基づいて解析を行う。
論文 参考訳(メタデータ) (2022-05-27T16:43:10Z) - Global convergence of optimized adaptive importance samplers [0.0]
我々は,モンテカルロを一般提案と統合するために最適化された適応的重要度サンプリング器 (OAIS) を解析した。
我々は、提案に対する$chi2$-divergenceの大域的勾配に対する漸近的境界を導出する。
論文 参考訳(メタデータ) (2022-01-02T19:56:36Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Approximate Bayesian inference from noisy likelihoods with Gaussian
process emulated MCMC [0.24275655667345403]
ガウス過程(GP)を用いた対数様関数をモデル化する。
主な方法論的革新は、正確なメトロポリス・ハスティングス(MH)サンプリングが行う進歩をエミュレートするためにこのモデルを適用することである。
得られた近似サンプリング器は概念的には単純で、試料効率が高い。
論文 参考訳(メタデータ) (2021-04-08T17:38:02Z) - Likelihood-Free Inference with Deep Gaussian Processes [70.74203794847344]
サーロゲートモデルは、シミュレータ評価の回数を減らすために、可能性のない推論に成功している。
本稿では,より不規則な対象分布を扱えるディープガウス過程(DGP)サロゲートモデルを提案する。
本実験は,DGPがマルチモーダル分布を持つ目的関数上でGPよりも優れ,単調な場合と同等の性能を維持できることを示す。
論文 参考訳(メタデータ) (2020-06-18T14:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。