論文の概要: Filtered Poisson Process Bandit on a Continuum
- arxiv url: http://arxiv.org/abs/2007.09966v1
- Date: Mon, 20 Jul 2020 09:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:48:01.185040
- Title: Filtered Poisson Process Bandit on a Continuum
- Title(参考訳): 連続体上のフィルタ付きポアソンプロセスバンディット
- Authors: James A. Grant, and Roberto Szechtman
- Abstract要約: 動作が非均一なポアソン過程のフィルタリング実現を誘導する連続武装バンドイットのバージョンを考える。
本稿では,行動空間のデータ適応的離散化を利用した高信頼境界アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.4180331276028662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a version of the continuum armed bandit where an action induces a
filtered realisation of a non-homogeneous Poisson process. Point data in the
filtered sample are then revealed to the decision-maker, whose reward is the
total number of revealed points. Using knowledge of the function governing the
filtering, but without knowledge of the Poisson intensity function, the
decision-maker seeks to maximise the expected number of revealed points over T
rounds. We propose an upper confidence bound algorithm for this problem
utilising data-adaptive discretisation of the action space. This approach
enjoys O(T^(2/3)) regret under a Lipschitz assumption on the reward function.
We provide lower bounds on the regret of any algorithm for the problem, via new
lower bounds for related finite-armed bandits, and show that the orders of the
upper and lower bounds match up to a logarithmic factor.
- Abstract(参考訳): 動作が非均一なポアソン過程のフィルタリング実現を誘導する連続武装バンドイットのバージョンを考える。
次に、フィルタされたサンプル中のポイントデータを意思決定者に開示し、そのポイントの総数を報酬とする。
フィルタリングを統括する関数の知識を用いるが、ポアソン強度関数の知識がなければ、決定者はTラウンド上での明らかな点の期待数を最大化しようと試みる。
本稿では,行動空間のデータ適応的離散化を利用した高信頼バウンドアルゴリズムを提案する。
このアプローチは、報酬関数に対するリプシッツの仮定の下でのO(T^(2/3))後悔を楽しむ。
我々は,関連する有限腕バンディットに対する新たな下限を通じて,この問題に対するアルゴリズムの後悔に対する下限を与え,上限と下限の順序が対数係数に一致することを示す。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Convergent Bregman Plug-and-Play Image Restoration for Poisson Inverse
Problems [8.673558396669806]
Plug-noise-and-Play (Play) 法は画像逆問題に対する効率的な反復アルゴリズムである。
2つ提案する。
Bregman Score gradient Denoise 逆問題に基づくアルゴリズム。
論文 参考訳(メタデータ) (2023-06-06T07:36:47Z) - On Dynamic Regret and Constraint Violations in Constrained Online Convex
Optimization [17.412117389855222]
提案するアルゴリズムは,現在の動作の周囲に適度に選択された集合上の射影勾配勾配を追従する。
動的後悔と制約違反の両方が、連続する最適動作間の距離の和であるパス長によって順序的に束縛されていることを示す。
論文 参考訳(メタデータ) (2023-01-24T04:22:13Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - On Limited-Memory Subsampling Strategies for Bandits [0.0]
本稿では,Budry et al. (2020) の最近の研究で提案されている単純な決定論的部分サンプリング則が,一次元指数関数族において最適であることを示す。
また、これらの保証は、アルゴリズムメモリを時間軸の多対数関数に制限する場合にも有効であることを示す。
本稿では,近年の観測結果のみをサブサンプリングに用い,既知の急激な変化を前提とした最適後悔保証を実現するアルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2021-06-21T09:11:22Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。