論文の概要: Knowledge Gradient for Preference Learning
- arxiv url: http://arxiv.org/abs/2601.22335v1
- Date: Thu, 29 Jan 2026 21:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.077062
- Title: Knowledge Gradient for Preference Learning
- Title(参考訳): 嗜好学習のための知識グラディエント
- Authors: Kaiwen Wu, Jacob R. Gardner,
- Abstract要約: 正確な知識勾配は一連のベンチマーク問題に対して強く作用し、しばしば既存の獲得関数よりも優れていることを示す。
また,特定のシナリオにおける知識勾配の限界を示すケーススタディも提示する。
- 参考スコア(独自算出の注目度): 22.618549185997924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The knowledge gradient is a popular acquisition function in Bayesian optimization (BO) for optimizing black-box objectives with noisy function evaluations. Many practical settings, however, allow only pairwise comparison queries, yielding a preferential BO problem where direct function evaluations are unavailable. Extending the knowledge gradient to preferential BO is hindered by its computational challenge. At its core, the look-ahead step in the preferential setting requires computing a non-Gaussian posterior, which was previously considered intractable. In this paper, we address this challenge by deriving an exact and analytical knowledge gradient for preferential BO. We show that the exact knowledge gradient performs strongly on a suite of benchmark problems, often outperforming existing acquisition functions. In addition, we also present a case study illustrating the limitation of the knowledge gradient in certain scenarios.
- Abstract(参考訳): 知識勾配はベイズ最適化(BO)において、ノイズ関数評価によるブラックボックスの目的を最適化するための一般的な獲得関数である。
しかし、多くの実践的な設定では、ペア比較クエリのみが可能であるため、直接関数評価が不可能なBO問題が発生する。
知識勾配を優先的なBOに拡張することは、その計算課題によって妨げられる。
その中核は、優先的な設定におけるルックアヘッドのステップは、以前は難易度と考えられていた非ガウス後部を計算することである。
本稿では,この課題に対して,優先的なBOに対して,正確かつ解析的な知識勾配を導出することによって対処する。
正確な知識勾配は一連のベンチマーク問題に対して強く作用し、しばしば既存の獲得関数よりも優れていることを示す。
また,特定のシナリオにおける知識勾配の限界を示すケーススタディも提示する。
関連論文リスト
- Robust Transfer Learning for Active Level Set Estimation with Locally Adaptive Gaussian Process Prior [10.609848119555975]
ブラックボックス関数のアクティブレベル設定推定の目的は、関数値が指定された閾値を超えるか低下する領域を正確に識別することである。
ブラックボックス関数をサンプリング効率よくモデル化するための有望な方法は、関連する関数から事前知識を取り入れることである。
本稿では,与えられた事前知識を安全に統合し,頑健な性能を保証するために常に調整する,アクティブなレベルセット推定のための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T03:19:48Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Experience in Engineering Complex Systems: Active Preference Learning
with Multiple Outcomes and Certainty Levels [1.5257326975704795]
ブラックボックス最適化とは、目的関数と/または制約集合が未知、到達不能、あるいは存在しない問題を指す。
この特定の情報を活用するために、いわゆるActive Preference Learningと呼ばれるアルゴリズムが開発された。
我々のアプローチは、さらなる情報を効果的に活用できるような方法でアルゴリズムを拡張することを目的としている。
論文 参考訳(メタデータ) (2023-02-27T15:55:37Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Batch Bayesian optimisation via density-ratio estimation with guarantees [26.052368583196426]
本稿では,BOREの後悔を理論的に分析し,不確実性の推定を改良したアルゴリズムの拡張について述べる。
また,BOREを近似ベイズ推論として再キャストすることにより,バッチ最適化設定に自然に拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T00:42:18Z) - BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach [46.457298683984924]
バイレベル最適化(BO)は、さまざまな機械学習問題を解決するのに有用である。
従来の手法では、暗黙の微分を伴う低レベル最適化プロセスを通じて差別化する必要がある。
一階BOは一階情報にのみ依存し、暗黙の微分を必要としない。
論文 参考訳(メタデータ) (2022-09-19T01:51:12Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。