論文の概要: Exploration via linearly perturbed loss minimisation
- arxiv url: http://arxiv.org/abs/2311.07565v1
- Date: Mon, 13 Nov 2023 18:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 12:57:37.350127
- Title: Exploration via linearly perturbed loss minimisation
- Title(参考訳): 線形摂動損失最小化による探索
- Authors: David Janz, Shuai Liu, Alex Ayoub, Csaba Szepesv\'ari
- Abstract要約: 本稿では,構造的バンディット問題に対する線形損失摂動(EVILL)による探索を紹介する。
EVILL は線形摂動正規化負の対数様関数のミニミザーを解くことで機能する。
一般化された線形包帯の場合、EVILLは乱れ歴史探索(PHE)に還元され、ランダムな乱れ報酬のトレーニングによって探索が行われる。
- 参考スコア(独自算出の注目度): 4.856378369489158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce exploration via linear loss perturbations (EVILL), a randomised
exploration method for structured stochastic bandit problems that works by
solving for the minimiser of a linearly perturbed regularised negative
log-likelihood function. We show that, for the case of generalised linear
bandits, EVILL reduces to perturbed history exploration (PHE), a method where
exploration is done by training on randomly perturbed rewards. In doing so, we
provide a simple and clean explanation of when and why random reward
perturbations give rise to good bandit algorithms. With the data-dependent
perturbations we propose, not present in previous PHE-type methods, EVILL is
shown to match the performance of Thompson-sampling-style
parameter-perturbation methods, both in theory and in practice. Moreover, we
show an example outside of generalised linear bandits where PHE leads to
inconsistent estimates, and thus linear regret, while EVILL remains performant.
Like PHE, EVILL can be implemented in just a few lines of code.
- Abstract(参考訳): 本稿では,線形摂動正規化負対数様関数の最小化を解くことで機能する確率的バンディット問題のランダム化探索法である,線形損失摂動(EVILL)による探索を導入する。
一般化線形バンディットの場合、悪はランダムに摂動した報酬を訓練することで探索を行う方法であるperturbed history exploration(phe)に還元される。
そうすることで、ランダム報酬の摂動が良いバンディットアルゴリズムを生み出す理由と理由を、シンプルで簡潔に説明できます。
従来のPHE法には存在しないデータ依存摂動により,EVILLはトンプソン・サンプリング型パラメータ摂動法の性能を理論的・実際的に一致させることを示した。
さらに、PHEが不整合推定を導き、従って線形後悔をもたらすような一般化された線形包帯の外部の例を示す。
PHEと同様、EVILLはほんの数行のコードで実装できる。
関連論文リスト
- PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Information Directed Sampling for Sparse Linear Bandits [42.232086950768476]
様々な問題事例における既存の下位境界にほぼ一致する情報理論ベイズ的後悔境界のクラスを開発する。
数基のベースラインに対して, スパースIDSによる顕著な後悔の低減が認められた。
論文 参考訳(メタデータ) (2021-05-29T10:26:23Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits [16.042075861624056]
我々は,注文最適性を証明できる新しい指標ポリシーを開発し,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーは、線形バンディットに対して1プル当たりの少ない時間でこれを達成し、結果として、好意的な後悔と計算効率の両方をもたらす。
論文 参考訳(メタデータ) (2020-10-08T16:17:53Z) - A Smoothed Analysis of Online Lasso for the Sparse Linear Contextual
Bandit Problem [25.5073029104128]
簡単なオンラインのLassoは、残酷な$mathcalO(sqrtkTlog d)$で、疎線形コンテキストバンドリットをサポートすることを証明している。
この結果の特別な構造は、摂動が探査期間にどのように影響するかを明確に特徴付ける。
論文 参考訳(メタデータ) (2020-07-16T18:48:45Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Multiscale Non-stationary Stochastic Bandits [83.48992319018147]
本稿では,非定常線形帯域問題に対して,Multiscale-LinUCBと呼ばれる新しいマルチスケール変更点検出法を提案する。
実験結果から,提案手法は非定常環境下での他の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-13T00:24:17Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Perturbed-History Exploration in Stochastic Linear Bandits [35.70267786499955]
線形帯域における累積後悔に対する新しいオンラインアルゴリズムを提案する。
このアルゴリズムは、その乱れた歴史に基づいて訓練された線形モデルにおいて、最も推定された報酬で腕を引っ張る。
論文 参考訳(メタデータ) (2019-03-21T17:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。