論文の概要: MINTS: Minimalist Thompson Sampling
- arxiv url: http://arxiv.org/abs/2606.01655v1
- Date: Mon, 01 Jun 2026 04:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.966262
- Title: MINTS: Minimalist Thompson Sampling
- Title(参考訳): MINTS:ミニマリストのトンプソン・サンプリング
- Authors: Kaizheng Wang,
- Abstract要約: 最適位置のみに先立つ最小主義のベイズ的枠組みを導入する。
直接インスタンス化として、Minimalist Thompson Smpling (MINTS) を開発する。
MINTSは非構造状態において古典的なレイ-ロビンを定数とし、自動的に非モード構造に適応する。
- 参考スコア(独自算出の注目度): 4.907205095294477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bayesian paradigm offers principled tools for sequential decision-making under uncertainty, but its reliance on a probabilistic model for all parameters can hinder the incorporation of complex structural constraints. We introduce a minimalist Bayesian framework that places a prior only on the location of the optimum, while eliminating nuisance parameters through profile likelihood. This yields a generalized posterior that naturally accommodates structural constraints. As a direct instantiation, we develop MINimalist Thompson Sampling (MINTS). For multi-armed bandits with mean constraints, we establish near-optimal non-asymptotic regret guarantees and sharp almost-sure asymptotic regret characterizations. In particular, MINTS attains the classical Lai--Robbins constant in the unstructured setting and automatically adapts to unimodal structure, achieving the sharp constant determined only by the immediate neighbors of the optimal arm.
- Abstract(参考訳): ベイズパラダイムは、不確実性の下でのシーケンシャルな意思決定のための原則化されたツールを提供するが、全てのパラメータに対する確率的モデルへの依存は、複雑な構造的制約の組み入れを妨げる。
我々は、プロファイル可能性を通じてニュアンスパラメータを排除しつつ、最適位置のみに事前を配置する最小主義のベイズフレームワークを導入する。
これにより、構造的制約を自然に許容する一般化後部が得られる。
直接インスタンス化として,Minimalist Thompson Smpling (MINTS) を開発した。
平均的制約を有する多武装の盗賊に対しては、近位に近い非漸近的後悔保証と鋭いほぼ無症状的後悔評価を確立する。
特に、MINTS は非構造状態における古典的なレイ-ロビンの定数を達成し、最適な腕のすぐ隣でのみ決定される鋭い定数を達成する。
関連論文リスト
- A Minimalist Bayesian Framework for Stochastic Optimization [4.907205095294477]
最適位置のような関心の構成要素のみに先立つ最小主義のベイズ的枠組みを導入する。
直接インスタンス化として,Minimalist Thompson Smpling (MINTS)アルゴリズムを開発した。
連続武装のリプシッツ・バンディットや動的価格など構造的な問題に対応している。
論文 参考訳(メタデータ) (2025-09-07T19:31:12Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Proportional Response: Contextual Bandits for Simple and Cumulative
Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文 参考訳(メタデータ) (2023-07-05T08:34:54Z) - On the Variance, Admissibility, and Stability of Empirical Risk Minimization [57.63331017830154]
経験的リスク最小化(ERM: Empirical Risk Minimization)は、平均2乗誤差で最小限の最適値が得られる。
比較的軽度な仮定の下では、ERMの準最適性はその大きなバイアスによるものでなければならない。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Rockafellian Relaxation and Stochastic Optimization under Perturbations [0.056247917037481096]
我々は、ロカフェル緩和に基づく楽観的なフレームワークを開発し、最適化は元の決定空間だけでなく、モデルの選択と共同で行われる。
この枠組みは、厳密かつ厳密なロックフェリアンの新たな概念に焦点を合わせ、特定の設定で否定的な「正規化」の解釈が現れる。
論文 参考訳(メタデータ) (2022-04-10T20:02:41Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。