論文の概要: An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces
- arxiv url: http://arxiv.org/abs/2502.14790v2
- Date: Fri, 21 Feb 2025 14:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:49:55.179904
- Title: An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces
- Title(参考訳): 全情報オンライン学習のためのトンプソンサンプリングの逆解析:有限から無限の行動空間へ
- Authors: Alexander Terenin, Jeffrey Negrea,
- Abstract要約: 我々は完全なフィードバックの下でオンライン学習のためのトンプソンサンプリングの分析法を開発した。
我々は、後悔の分解を、学習者が先入観を期待したことを後悔させ、また、過度な後悔と呼ぶ先延ばし的な用語を示します。
- 参考スコア(独自算出の注目度): 54.37047702755926
- License:
- Abstract: We develop an analysis of Thompson sampling for online learning under full feedback - also known as prediction with expert advice - where the learner's prior is defined over the space of an adversary's future actions, rather than the space of experts. We show regret decomposes into regret the learner expected a priori, plus a prior-robustness-type term we call excess regret. In the classical finite-expert setting, this recovers optimal rates. As an initial step towards practical online learning in settings with a potentially-uncountably-infinite number of experts, we show that Thompson sampling with a certain Gaussian process prior widely-used in the Bayesian optimization literature has a $\mathcal{O}(\beta\sqrt{T\log(1+\lambda)})$ rate against a $\beta$-bounded $\lambda$-Lipschitz adversary.
- Abstract(参考訳): 本研究では,オンライン学習のためのトンプソンサンプリングの分析を,専門家のアドバイスによる予測としても知られており,学習者の事前は,専門家の空間ではなく,相手の今後の行動の空間上で定義される。
我々は、後悔の分解を、学習者が先入観を期待したことを後悔させ、また、過度な後悔と呼ぶ先延ばし的な用語を示します。
古典的な有限エキスパート設定では、これは最適なレートを回復する。
ベイズ最適化の文献で広く使われているあるガウス過程によるトンプソンのサンプリングには、$\mathcal{O}(\beta\sqrt{T\log(1+\lambda)})と$\beta$-bounded $\lambda$-Lipschitzの対価がある。
関連論文リスト
- Approximate Thompson Sampling for Learning Linear Quadratic Regulators with $O(\sqrt{T})$ Regret [10.541541376305243]
本稿では,線形二次レギュレータ(LQR)を改良したベイズ的残差値$O(sqrtT)$で学習する近似トンプソンサンプリングアルゴリズムを提案する。
励振信号は、プレコンディショナーの最小固有値を時間とともに増加させ、近似した後方サンプリングプロセスを加速させることを示す。
論文 参考訳(メタデータ) (2024-05-29T03:24:56Z) - Thompson Sampling for Infinite-Horizon Discounted Decision Processes [0.0]
我々はトンプソンサンプリングと呼ばれるサンプリングベースアルゴリズムの挙動を研究する。
標準の(予想された)後悔を分解することで、期待された後悔という新しい尺度を開発します。
論文 参考訳(メタデータ) (2024-05-14T01:01:05Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - A Regret-Variance Trade-Off in Online Learning [14.41667013062914]
予測の分散が学習にどのように活用できるかを示す。
損失の減少を伴うオンライン予測では, 後悔に対する汚職の影響は大きなばらつきによって補うことができることを示す。
我々はその結果をオンライン線形回帰の設定にまで拡張する。
論文 参考訳(メタデータ) (2022-06-06T14:50:19Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Asymptotic Convergence of Thompson Sampling [0.0]
トンプソンサンプリングは、様々なオンライン学習タスクにおいて効果的なポリシーであることが示されている。
我々は、準線形ベイズ的後悔を仮定して、トンプソンサンプリングの収束結果を証明した。
この結果はトンプソンサンプリングに固有のマーチンゲール構造に依存している。
論文 参考訳(メタデータ) (2020-11-08T07:36:49Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。