論文の概要: Information Directed Sampling for Linear Partial Monitoring
- arxiv url: http://arxiv.org/abs/2002.11182v1
- Date: Tue, 25 Feb 2020 21:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:02:56.599037
- Title: Information Directed Sampling for Linear Partial Monitoring
- Title(参考訳): 線形部分監視のための情報指向サンプリング
- Authors: Johannes Kirschner, Tor Lattimore, Andreas Krause
- Abstract要約: 線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
- 参考スコア(独自算出の注目度): 112.05623123909895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partial monitoring is a rich framework for sequential decision making under
uncertainty that generalizes many well known bandit models, including linear,
combinatorial and dueling bandits. We introduce information directed sampling
(IDS) for stochastic partial monitoring with a linear reward and observation
structure. IDS achieves adaptive worst-case regret rates that depend on precise
observability conditions of the game. Moreover, we prove lower bounds that
classify the minimax regret of all finite games into four possible regimes. IDS
achieves the optimal rate in all cases up to logarithmic factors, without
tuning any hyper-parameters. We further extend our results to the contextual
and the kernelized setting, which significantly increases the range of possible
applications.
- Abstract(参考訳): 部分的監視は、線形、コンビネータ、デュエルといった多くのよく知られたバンディットモデルを一般化する不確実性の下でのシーケンシャルな意思決定のためのリッチなフレームワークである。
線形報酬と観測構造を持つ確率的部分モニタリングのための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測条件に依存する適応的な最悪の後悔率を達成する。
さらに、すべての有限ゲームのミニマックス後悔を4つの可能なレジームに分類する下限を証明した。
IDSは、ハイパーパラメータを調整せずに、対数係数まで全てのケースで最適な速度を達成する。
さらに、結果をさらにコンテキスト設定とカーネル設定に拡張し、可能なアプリケーションの範囲を大幅に増加させます。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Linear Partial Monitoring for Sequential Decision-Making: Algorithms,
Regret Bounds and Applications [70.67112733968654]
部分的なモニタリングは、シーケンシャルな意思決定のための表現力のあるフレームワークである。
本稿では,部分的モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的かつカーネル化された設定に拡張する。
論文 参考訳(メタデータ) (2023-02-07T18:58:25Z) - Local SGD in Overparameterized Linear Regression [0.0]
本稿では,複数のデバイス上でのステップサイズSGD(Constant Stepize SGD)を用いた分散学習について考察する。
局所ノードの数が大きすぎると, 過大なリスクはばらつきの順であることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:58:22Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Information Directed Sampling for Sparse Linear Bandits [42.232086950768476]
様々な問題事例における既存の下位境界にほぼ一致する情報理論ベイズ的後悔境界のクラスを開発する。
数基のベースラインに対して, スパースIDSによる顕著な後悔の低減が認められた。
論文 参考訳(メタデータ) (2021-05-29T10:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。