論文の概要: Gaussian Imagination in Bandit Learning
- arxiv url: http://arxiv.org/abs/2201.01902v1
- Date: Thu, 6 Jan 2022 02:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:20:59.301100
- Title: Gaussian Imagination in Bandit Learning
- Title(参考訳): バンディット学習におけるガウス的イマジネーション
- Authors: Yueyang Liu, Adithya M. Devraj, Benjamin Van Roy, Kuang Xu
- Abstract要約: 本研究では,ベルヌーイのバンディットに代えてエージェントのパフォーマンスについて検討する。
我々は、エージェントがベルヌーイ・バンディットと相互作用するときのベイズ的後悔の増加に限界を定めている。
本研究は, 拡散不特定分布のインスタンス化において, いわゆるベイズエージェントが有効であるとする民間伝承を定式化した。
- 参考スコア(独自算出の注目度): 22.193767954098398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assuming distributions are Gaussian often facilitates computations that are
otherwise intractable. We consider an agent who is designed to attain a low
information ratio with respect to a bandit environment with a Gaussian prior
distribution and a Gaussian likelihood function, but study the agent's
performance when applied instead to a Bernoulli bandit. We establish a bound on
the increase in Bayesian regret when an agent interacts with the Bernoulli
bandit, relative to an information-theoretic bound satisfied with the Gaussian
bandit. If the Gaussian prior distribution and likelihood function are
sufficiently diffuse, this increase grows with the square-root of the time
horizon, and thus the per-timestep increase vanishes. Our results formalize the
folklore that so-called Bayesian agents remain effective when instantiated with
diffuse misspecified distributions.
- Abstract(参考訳): 分布がガウス的であると仮定すると、そうでなければ難解な計算が容易になる。
ガウシアン事前分布とガウシアン確率関数を有するバンディット環境に対して低情報比を達成するように設計されたエージェントについて検討するが、ベルヌーイバンディットに代えて適用した場合のエージェントの性能について検討する。
我々は、エージェントがベルヌーイ・バンディットと相互作用する場合、ガウス・バンディットに満足する情報理論的境界に対して、ベイズ的後悔の増大に限界を定めている。
ガウスの事前分布と可能性関数が十分に拡散すると、時間軸の平方根とともにこの増加は増大し、時間ステップごとの増加は消失する。
本研究は, 拡散不特定分布のインスタンス化において, いわゆるベイズエージェントが有効であるとする民間伝承を定式化した。
関連論文リスト
- Zero-Inflated Bandits [11.60342504007264]
ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
一般報奨仮定と準ガウス報奨を含む文脈一般化線形報奨を併用した多腕包帯の両面における後悔境界を導出する。
多くの設定において、我々のアルゴリズムの後悔率は、最小限の最適か最先端のどちらかである。
論文 参考訳(メタデータ) (2023-12-25T03:13:21Z) - On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates [5.13323375365494]
我々は,強い対数対数データの下での拡散に基づく生成モデルの収束挙動を理論的に保証する。
スコア推定に使用される関数のクラスは、スコア関数上のリプシッツネスの仮定を避けるために、リプシッツ連続関数からなる。
この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。
論文 参考訳(メタデータ) (2023-11-22T18:40:45Z) - Robust Gaussian Process Regression with Huber Likelihood [2.7184224088243365]
本稿では,ハマー確率分布として表される観測データの可能性を考慮した,ガウス過程フレームワークにおけるロバストなプロセスモデルを提案する。
提案モデルでは、予測統計に基づく重みを用いて、残差を拡大し、潜伏関数推定における垂直外れ値と悪レバレッジ点の影響を限定する。
論文 参考訳(メタデータ) (2023-01-19T02:59:33Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - The Schr\"odinger Bridge between Gaussian Measures has a Closed Form [101.79851806388699]
我々は OT の動的定式化(Schr"odinger bridge (SB) 問題)に焦点を当てる。
本稿では,ガウス測度間のSBに対する閉形式表現について述べる。
論文 参考訳(メタデータ) (2022-02-11T15:59:01Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - The Countable-armed Bandit with Vanishing Arms [8.099977107670918]
我々は、数え切れないほど多くの腕を有限個の「型」に分割したバンドイット問題を考える。
非定常分布は、腕の個体群における各腕型の相対的な存在量を支配しており、いわゆる「腕貯水池」である。
論文 参考訳(メタデータ) (2021-10-23T02:47:55Z) - Generative Semantic Hashing Enhanced via Boltzmann Machines [61.688380278649056]
既存の生成ハッシュ法は、主に後部分布の分解形式を仮定する。
本稿では,ボルツマンマシンの分布を検索後部として利用することを提案する。
ハッシュコード内の異なるビット間の相関関係を効果的にモデル化することにより、我々のモデルは大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2020-06-16T01:23:39Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。