論文の概要: A Finite Time Analysis of Thompson Sampling for Bayesian Optimization with Preferential Feedback
- arxiv url: http://arxiv.org/abs/2604.25025v1
- Date: Mon, 27 Apr 2026 22:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.614307
- Title: A Finite Time Analysis of Thompson Sampling for Bayesian Optimization with Preferential Feedback
- Title(参考訳): 優先フィードバックを考慮したベイズ最適化のためのトンプソンサンプリングの有限時間解析
- Authors: Joseph Lazzaro, Davide Buffelli, Da-shan Shiu, Sattar Vakili,
- Abstract要約: 我々は、優先的なフィードバックを伴うベイズ最適化に対するトンプソンサンプリング手法を提案する。
本稿では,提案手法の性能が標準TSと一致することを示す有限時間解析を行う。
また,本手法の有効性を実世界の実例および実例で示す。
- 参考スコア(独自算出の注目度): 20.000648228562103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Preference feedback, in the form of pairwise comparisons rather than scalar scores, has seen increasing use in applications such as human-, laboratory-, and expert-in-the-loop design, as well as scientific discovery. We propose a Thompson Sampling (TS) approach to Bayesian optimization with preferential feedback that models comparisons using a monotone link on latent utility differences and leverages the dueling kernel induced by a base kernel. We provide a finite-time analysis showing that the performance of the proposed method matches that of standard TS for conventional Bayesian optimization with scalar feedback. The analysis exploits the anchor invariance of TS for challenger selection and introduces a double-TS pairing variant. We also demonstrate the performance of the method on both synthetic and real-world examples.
- Abstract(参考訳): 選好フィードバックは、スカラースコアではなくペア比較の形で、人間、実験室、専門家によるループ設計などの応用や科学的発見に利用されつつある。
本稿では,遅延効用差分に対する単調リンクを用いた比較をモデル化し,ベースカーネルによって誘導されるデュエルカーネルを利用する,ベイズ最適化のためのトンプソンサンプリング(TS)アプローチを提案する。
提案手法の性能は従来のベイズ最適化とスカラーフィードバックの標準TSと一致することを示す有限時間解析を行った。
この分析は、挑戦者選択のためのTSのアンカー不変性を利用して、double-TSペアリング変種を導入する。
また,本手法の有効性を実世界の実例および実例で示す。
関連論文リスト
- How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics [65.67654005892469]
適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
論文 参考訳(メタデータ) (2026-02-12T17:11:08Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Simulation Based Bayesian Optimization [0.0]
本稿では,獲得関数を最適化するための新しいアプローチとして,シミュレーションベースベイズ最適化(SBBO)を提案する。
GPは後続予測分布への解析的アクセスを提供するため、サロゲートモデルとして一般的に使用される。
本研究では,SBBOの有効性を種々の代理モデルを用いて実証的に実証する。
論文 参考訳(メタデータ) (2024-01-19T16:56:11Z) - Surrogate modeling for Bayesian optimization beyond a single Gaussian
process [62.294228304646516]
本稿では,探索空間の活用と探索のバランスをとるための新しいベイズ代理モデルを提案する。
拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。
提案した EGP-TS を大域的最適に収束させるため,ベイズ的後悔の概念に基づいて解析を行う。
論文 参考訳(メタデータ) (2022-05-27T16:43:10Z) - Fourier Representations for Black-Box Optimization over Categorical
Variables [34.0277529502051]
そこで本研究では,ブラックボックス評価のためのサロゲートモデルと組み合わせた既存手法を提案する。
このような表現を学習するために、サロゲートモデルを更新するための2つの異なる設定を検討する。
合成ベンチマークと実世界のRNA配列最適化および設計問題の数値実験により,提案手法の表現力を示す。
論文 参考訳(メタデータ) (2022-02-08T08:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。