論文の概要: Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds
- arxiv url: http://arxiv.org/abs/2505.23673v1
- Date: Thu, 29 May 2025 17:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.026377
- Title: Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds
- Title(参考訳): フィードバックからのベイズ最適化:準最適回帰境界
- Authors: Aya Kayal, Sattar Vakili, Laura Toni, Da-shan Shiu, Alberto Bernacchia,
- Abstract要約: 我々はこの問題をHuman Feedback (HF) からのベイズ最適化(Bayesian Optimization from Human Feedback)と呼ぶ。
目的は、限定された嗜好フレームワークを使用して、最良のアクションを特定することである。
言い換えれば、スカラー値のサンプルと同数の優先的な新規サンプルは、ほぼ最適解を見つけるのに十分である。
- 参考スコア(独自算出の注目度): 20.024434010891433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian optimization (BO) with preference-based feedback has recently garnered significant attention due to its emerging applications. We refer to this problem as Bayesian Optimization from Human Feedback (BOHF), which differs from conventional BO by learning the best actions from a reduced feedback model, where only the preference between two actions is revealed to the learner at each time step. The objective is to identify the best action using a limited number of preference queries, typically obtained through costly human feedback. Existing work, which adopts the Bradley-Terry-Luce (BTL) feedback model, provides regret bounds for the performance of several algorithms. In this work, within the same framework we develop tighter performance guarantees. Specifically, we derive regret bounds of $\tilde{\mathcal{O}}(\sqrt{\Gamma(T)T})$, where $\Gamma(T)$ represents the maximum information gain$\unicode{x2014}$a kernel-specific complexity term$\unicode{x2014}$and $T$ is the number of queries. Our results significantly improve upon existing bounds. Notably, for common kernels, we show that the order-optimal sample complexities of conventional BO$\unicode{x2014}$achieved with richer feedback models$\unicode{x2014}$are recovered. In other words, the same number of preferential samples as scalar-valued samples is sufficient to find a nearly optimal solution.
- Abstract(参考訳): 好みに基づくフィードバックを持つベイズ最適化(BO)は、最近、その新興アプリケーションのために大きな注目を集めている。
本稿では,フィードバックモデルから最良の行動を学ぶことで従来のBOと異なり,各段階において2つの行動間の好みのみを学習者に提示する。
目的は、通常、コストのかかる人間のフィードバックによって得られる、限られた数の好みクエリを使って、最良のアクションを特定することである。
既存の作業はBradley-Terry-Luce (BTL) フィードバックモデルを採用しており、いくつかのアルゴリズムの性能に後悔の念を与えている。
この作業では、同じフレームワーク内で、より厳格なパフォーマンス保証を開発します。
具体的には、$\tilde{\mathcal{O}}(\sqrt{\Gamma(T)T})$, ここで、$\Gamma(T)$は最大情報g$\unicode{x2014}$a カーネル固有の複雑性項$\unicode{x2014}$and $T$はクエリの数を表す。
我々の結果は既存の限界を大きく改善した。
特に,従来のBO$\unicode{x2014}$achieved with richer feedback model$\unicode{x2014}$are recovery。
言い換えれば、スカラー値のサンプルと同じ優先的なサンプルの数は、ほぼ最適解を見つけるのに十分である。
関連論文リスト
- Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits [12.674929126684528]
我々は、プレイヤーがPアクションの中から d 個の基本アイテムを含む集合のパワーセットから選択する半帯域の問題に対処する。
提案手法は半帯域フィードバックを効果的に活用し,帯域フィードバックアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-23T08:07:54Z) - Exploration by Optimization with Hybrid Regularizers: Logarithmic Regret with Adversarial Robustness in Partial Monitoring [41.20252349191698]
部分的な監視は、限られたフィードバックを伴うオンライン意思決定問題の一般的なフレームワークである。
ハイブリッド正規化器を用いたExOの新しいフレームワークと解析法を提案する。
特に、$O(sum_a neq a*)$で、$k$、$m$、$T$はアクション、観察、ラウンドの数である。
論文 参考訳(メタデータ) (2024-02-13T09:34:22Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。
本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。
次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T13:07:44Z) - Bayesian Algorithm Execution: Estimating Computable Properties of
Black-box Functions Using Mutual Information [78.78486761923855]
多くの現実世界では、T関数の評価の予算を考えると、高価なブラックボックス関数 f の性質を推測したい。
本稿では,アルゴリズムの出力に対して相互情報を最大化するクエリを逐次選択する手法InfoBAXを提案する。
これらの問題に対してInfoBAXは、元のアルゴリズムで要求されるより500倍少ないクエリをfに使用する。
論文 参考訳(メタデータ) (2021-04-19T17:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。