論文の概要: Exploration via linearly perturbed loss minimisation
- arxiv url: http://arxiv.org/abs/2311.07565v2
- Date: Wed, 6 Mar 2024 12:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:43:14.498620
- Title: Exploration via linearly perturbed loss minimisation
- Title(参考訳): 線形摂動損失最小化による探索
- Authors: David Janz, Shuai Liu, Alex Ayoub, Csaba Szepesv\'ari
- Abstract要約: 本稿では,構造的バンディット問題に対する線形損失摂動(EVILL)による探索を紹介する。
一般化された線形包帯の場合、EVILLは乱れ歴史探索(PHE)に還元され、ランダムな乱れ報酬のトレーニングによって探索が行われる。
本稿では,従来のPHE方式では存在しないデータ依存摂動について提案する。
- 参考スコア(独自算出の注目度): 4.856378369489158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce exploration via linear loss perturbations (EVILL), a randomised
exploration method for structured stochastic bandit problems that works by
solving for the minimiser of a linearly perturbed regularised negative
log-likelihood function. We show that, for the case of generalised linear
bandits, EVILL reduces to perturbed history exploration (PHE), a method where
exploration is done by training on randomly perturbed rewards. In doing so, we
provide a simple and clean explanation of when and why random reward
perturbations give rise to good bandit algorithms. We propose data-dependent
perturbations not present in previous PHE-type methods that allow EVILL to
match the performance of Thompson-sampling-style parameter-perturbation
methods, both in theory and in practice. Moreover, we show an example outside
generalised linear bandits where PHE leads to inconsistent estimates, and thus
linear regret, while EVILL remains performant. Like PHE, EVILL can be
implemented in just a few lines of code.
- Abstract(参考訳): 本稿では,線形摂動正規化負対数様関数の最小化を解くことで機能する確率的バンディット問題のランダム化探索法である,線形損失摂動(EVILL)による探索を導入する。
一般化線形バンディットの場合、悪はランダムに摂動した報酬を訓練することで探索を行う方法であるperturbed history exploration(phe)に還元される。
そうすることで、ランダム報酬の摂動が良いバンディットアルゴリズムを生み出す理由と理由を、シンプルで簡潔に説明できます。
本研究では,従来のPHE法にはないデータ依存摂動法を提案し,理論および実際の両方において,EVILLがトンプソン・サンプル方式のパラメータ摂動法の性能と一致するようにした。
さらに, phe が不整合な推定につながり, 結果として線形後悔につながるような一般線形バンディットを外部に導入する例を示す。
PHEと同様、EVILLはほんの数行のコードで実装できる。
関連論文リスト
- When and why randomised exploration works (in linear bandits) [9.167278626563007]
作用空間が滑らかで凸であるとき、ランダム化された探索アルゴリズムは、$O(dsqrtn log(n))$の順序に縛られた$n$ステップの後悔を楽しむ。
このことは、トンプソンサンプリングが後悔の最適次元依存を達成できるような非自明な線形バンディット設定が存在することを初めて示している。
論文 参考訳(メタデータ) (2025-02-13T00:49:28Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits [16.042075861624056]
我々は,注文最適性を証明できる新しい指標ポリシーを開発し,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーは、線形バンディットに対して1プル当たりの少ない時間でこれを達成し、結果として、好意的な後悔と計算効率の両方をもたらす。
論文 参考訳(メタデータ) (2020-10-08T16:17:53Z) - A Smoothed Analysis of Online Lasso for the Sparse Linear Contextual
Bandit Problem [25.5073029104128]
簡単なオンラインのLassoは、残酷な$mathcalO(sqrtkTlog d)$で、疎線形コンテキストバンドリットをサポートすることを証明している。
この結果の特別な構造は、摂動が探査期間にどのように影響するかを明確に特徴付ける。
論文 参考訳(メタデータ) (2020-07-16T18:48:45Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Multiscale Non-stationary Stochastic Bandits [83.48992319018147]
本稿では,非定常線形帯域問題に対して,Multiscale-LinUCBと呼ばれる新しいマルチスケール変更点検出法を提案する。
実験結果から,提案手法は非定常環境下での他の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-13T00:24:17Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Perturbed-History Exploration in Stochastic Linear Bandits [35.70267786499955]
線形帯域における累積後悔に対する新しいオンラインアルゴリズムを提案する。
このアルゴリズムは、その乱れた歴史に基づいて訓練された線形モデルにおいて、最も推定された報酬で腕を引っ張る。
論文 参考訳(メタデータ) (2019-03-21T17:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。