論文の概要: Information Directed Sampling for Sparse Linear Bandits
- arxiv url: http://arxiv.org/abs/2105.14267v1
- Date: Sat, 29 May 2021 10:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 18:48:58.226628
- Title: Information Directed Sampling for Sparse Linear Bandits
- Title(参考訳): Sparse Linear Banditsのための情報指向サンプリング
- Authors: Botao Hao, Tor Lattimore, Wei Deng
- Abstract要約: 様々な問題事例における既存の下位境界にほぼ一致する情報理論ベイズ的後悔境界のクラスを開発する。
数基のベースラインに対して, スパースIDSによる顕著な後悔の低減が認められた。
- 参考スコア(独自算出の注目度): 42.232086950768476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic sparse linear bandits offer a practical model for high-dimensional
online decision-making problems and have a rich information-regret structure.
In this work we explore the use of information-directed sampling (IDS), which
naturally balances the information-regret trade-off. We develop a class of
information-theoretic Bayesian regret bounds that nearly match existing lower
bounds on a variety of problem instances, demonstrating the adaptivity of IDS.
To efficiently implement sparse IDS, we propose an empirical Bayesian approach
for sparse posterior sampling using a spike-and-slab Gaussian-Laplace prior.
Numerical results demonstrate significant regret reductions by sparse IDS
relative to several baselines.
- Abstract(参考訳): 確率的スパース線形帯域は、高次元オンライン意思決定問題の実用的なモデルを提供し、豊富な情報レグレット構造を持つ。
本研究では,情報リグレッシブなトレードオフを自然にバランスさせる情報指向サンプリング(ids)の利用について検討する。
我々は、様々な問題事例における既存の下位境界にほぼ一致する情報理論ベイズ的後悔境界のクラスを開発し、IDSの適応性を示す。
スパースidを効率的に実装するために,spike-and-slab gaussian-laplace priorを用いた経験的ベイズ法を提案する。
数基のベースラインに対して, スパースIDSによる著しい後悔の低減が認められた。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Missing Data Imputation and Acquisition with Deep Hierarchical Models
and Hamiltonian Monte Carlo [2.666288135543677]
混合型不完全データに対する階層型VAEモデルであるHH-VAEMを提案する。
実験の結果,HH-VAEMはデータ計算の欠如,教師付き学習,外れ値同定といったタスクにおいて,既存のベースラインよりも優れていた。
また,HH-VAEMで特徴が得られない場合に,情報ゲインを効率的に計算するためのサンプリングベース手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T17:50:52Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - High-Dimensional Sparse Linear Bandits [67.9378546011416]
データ・ポーア・システマティクスにおける疎線形包帯に対して、新しい$Omega(n2/3)$ dimension-free minimax regret lower boundを導出する。
また、関連する特徴に対する信号の大きさに関する追加の仮定の下で、次元のない$O(sqrtn)$ regret上界も証明する。
論文 参考訳(メタデータ) (2020-11-08T16:48:11Z) - Information Directed Sampling for Linear Partial Monitoring [112.05623123909895]
線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
論文 参考訳(メタデータ) (2020-02-25T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。