論文の概要: Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis
- arxiv url: http://arxiv.org/abs/2409.06329v2
- Date: Wed, 11 Sep 2024 08:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:13:20.768926
- Title: Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis
- Title(参考訳): 線形帯域に対する修正メタトンプソンサンプリングとそのベイズレギュレット解析
- Authors: Hao Li, Dong Liang, Zheng Xie,
- Abstract要約: 本稿では,リニアコンテキスト帯域に対するMeta-TSを改良したMeta-TSLBアルゴリズムを提案する。
理論的にはMeta-TSLBを解析し、$O((m+log(m))sqrtnlog(n))$をベイズ後悔に縛り付ける。
そこで我々は,Meta-TSLBの一般化能力の実験と解析を行い,未知のインスタンスに適応する可能性を示した。
- 参考スコア(独自算出の注目度): 11.708969865308596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-learning is characterized by its ability to learn how to learn, enabling the adaptation of learning strategies across different tasks. Recent research introduced the Meta-Thompson Sampling (Meta-TS), which meta-learns an unknown prior distribution sampled from a meta-prior by interacting with bandit instances drawn from it. However, its analysis was limited to Gaussian bandit. The contextual multi-armed bandit framework is an extension of the Gaussian Bandit, which challenges agent to utilize context vectors to predict the most valuable arms, optimally balancing exploration and exploitation to minimize regret over time. This paper introduces Meta-TSLB algorithm, a modified Meta-TS for linear contextual bandits. We theoretically analyze Meta-TSLB and derive an $ O((m+\log(m))\sqrt{n\log(n)})$ bound on its Bayes regret, in which $m$ represents the number of bandit instances, and $n$ the number of rounds of Thompson Sampling. Additionally, our work complements the analysis of Meta-TS for linear contextual bandits. The performance of Meta-TSLB is evaluated experimentally under different settings, and we experimente and analyze the generalization capability of Meta-TSLB, showcasing its potential to adapt to unseen instances.
- Abstract(参考訳): メタラーニングは、学習方法を学ぶ能力によって特徴付けられ、異なるタスクにまたがる学習戦略の適応を可能にする。
最近の研究はMeta-Thompson Smpling (Meta-TS)を導入し、メタプライアからサンプリングされた未知の事前分布をメタプライアから引き出されたバンディットインスタンスと相互作用させることでメタ学習する。
しかし、その分析はガウスの盗賊に限られていた。
文脈的マルチアーム・バンディット・フレームワークはガウス・バンディットの拡張であり、文脈ベクトルを用いて最も価値のある武器を予測し、時間の経過とともに後悔を最小限に抑えるために探索と搾取を最適にバランスさせることに挑戦する。
本稿では,リニアコンテキスト帯域に対するMeta-TSを改良したMeta-TSLBアルゴリズムを提案する。
理論的にはMeta-TSLBを解析し、$O((m+\log)を導出する。
(m))\sqrt{n\log
(n)})$bound on its Bayes regret, which $m$ represent the number of bandit instance, and $n$ the number of Thompson Sampling。
さらに,線形文脈帯域に対するMeta-TSの解析を補完する。
Meta-TSLBの性能を異なる設定で実験的に評価し、Meta-TSLBの一般化能力を実験・解析し、未確認のインスタンスに適応する可能性を示す。
関連論文リスト
- A First Order Meta Stackelberg Method for Robust Federated Learning [19.130600532727062]
この研究はBayesian Stackelberg Markov Game(BSMG)として逆連合学習をモデル化する。
本稿では,BSMGの平衡戦略を解決するために,メタスタックバーグ学習(メタSL)を提案する。
メタSLは1次$varepsilon$平衡点に収束し、$O(varepsilon-2)$グラデーション、$O(varepsilon-4)$反復に必要なサンプルを持つことを示した。
論文 参考訳(メタデータ) (2023-06-23T22:22:33Z) - Discounted Thompson Sampling for Non-Stationary Bandit Problems [13.656518163592349]
NS-MAB(Non-stationary multi-armed bandit)問題も最近注目されている。
非定常条件の両方に対処するため,ガウシアン先行値を用いたディスカウントトンプソンサンプリング(DS-TS)を提案する。
我々のアルゴリズムは、トンプソンサンプリングに割引係数を組み込むことにより、変化に順応的に適応する。
論文 参考訳(メタデータ) (2023-05-18T05:29:52Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation
and Complexity Analysis [20.11993437283895]
本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。
我々は、サンプリング攻撃モデルを、攻撃者とエージェントの間のスタックルバーグゲームとして定義し、最小限の定式化をもたらす。
我々は,攻撃者の小さな努力が学習性能を著しく低下させる可能性があることを観察した。
論文 参考訳(メタデータ) (2022-07-29T21:29:29Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Neural Collaborative Filtering Bandits via Meta Learning [34.92363500523094]
ニューラルコラボレーティブ・フィルタリングバンドの探索による問題の導入と研究
メタラーナーを動的グループに適応させるメタバン(メタバンド)を提案する。
最後に,Meta-Banが6つの強いベースラインを大幅に上回ることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2022-01-31T18:00:54Z) - Meta-Thompson Sampling [35.98471817519713]
本稿では、未知の事前分布から引き出された問題インスタンスと相互作用し、よりよく探索することを学ぶトンプソンサンプリングの変種を提案する。
我々のアルゴリズムは前者をメタ学習し、メタTSと呼ぶ。
論文 参考訳(メタデータ) (2021-02-11T17:07:25Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。