論文の概要: Thompson Sampling via Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2510.13328v1
- Date: Wed, 15 Oct 2025 09:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.590894
- Title: Thompson Sampling via Fine-Tuning of LLMs
- Title(参考訳): LLMの微細加工によるトンプソンサンプリング
- Authors: Nicolas Menet, Aleksandar Terzić, Andreas Krause, Abbas Rahimi,
- Abstract要約: 我々は,スケーラブルな大規模獲得関数を必要としないトンプソンサンプリングに基づく代替案を提案する。
我々のアプローチであるThompson Smpling via Finening (ToSFiT) は、プロンプト条件付き言語モデルに埋め込まれた事前知識を活用し、後方に向けて漸進的に適応する。
分析の結果,ToSFiTアルゴリズムの基盤となる極大性原理の後続確率への注意的適応が重要であることが明らかとなった。
- 参考スコア(独自算出の注目度): 69.76330538758893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian optimization in large unstructured discrete spaces is often hindered by the computational cost of maximizing acquisition functions due to the absence of gradients. We propose a scalable alternative based on Thompson sampling that eliminates the need for acquisition function maximization by directly parameterizing the probability that a candidate yields the maximum reward. Our approach, Thompson Sampling via Fine-Tuning (ToSFiT) leverages the prior knowledge embedded in prompt-conditioned large language models, and incrementally adapts them toward the posterior. Theoretically, we derive a novel regret bound for a variational formulation of Thompson Sampling that matches the strong guarantees of its standard counterpart. Our analysis reveals the critical role of careful adaptation to the posterior probability of maximality--a principle that underpins our ToSFiT algorithm. Empirically, we validate our method on three diverse tasks: FAQ response refinement, thermally stable protein search, and quantum circuit design. We demonstrate that online fine-tuning significantly improves sample efficiency, with negligible impact on computational efficiency.
- Abstract(参考訳): 大規模非構造離散空間におけるベイズ最適化は、勾配がないために取得関数を最大化する計算コストによって妨げられることが多い。
我々はトンプソンサンプリングに基づくスケーラブルな代替案を提案し、候補が最大報酬を得る確率を直接パラメータ化することで、取得関数の最大化の必要性を排除した。
我々のアプローチであるThompson Smpling via Fine-Tuning (ToSFiT) は、プロンプト条件付き大規模言語モデルに埋め込まれた事前知識を活用し、それを後方に漸進的に適応させる。
理論的には、トンプソンサンプリングの変分的な定式化のために、その標準的保証と一致する新しい後悔を導き出す。
分析の結果,ToSFiTアルゴリズムの基盤となる原理として,最大性の後続確率への注意的適応が重要であることが明らかとなった。
実験により,FAQ応答改善,熱安定タンパク質探索,量子回路設計の3つの課題に対して,本手法の有効性を検証した。
オンラインファインチューニングはサンプル効率を大幅に改善し,計算効率には何の影響も与えないことを示した。
関連論文リスト
- Adaptive Data Augmentation for Thompson Sampling [4.441866681085518]
線形文脈的包帯において、その目的は累積報酬を最大化する行動を選択することである。
トンプソンサンプリングは経験的にうまく機能するが、最適の後悔境界は達成しない。
本稿では,線形文脈帯域に対するほぼ最小のトンプソンサンプリングを提案する。
論文 参考訳(メタデータ) (2025-06-17T12:57:33Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - TS-RSR: A provably efficient approach for batch Bayesian Optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。
我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。
提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-03-07T18:58:26Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。