論文の概要: Optimisic Information Directed Sampling
- arxiv url: http://arxiv.org/abs/2402.15411v1
- Date: Fri, 23 Feb 2024 16:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:02:38.859821
- Title: Optimisic Information Directed Sampling
- Title(参考訳): サンプリングによる最適情報
- Authors: Gergely Neu, Matteo Papini, Ludovic Schwartz
- Abstract要約: 本研究では、損失関数が既知のパラメトリック関数クラスに属すると仮定された文脈的帯域幅問題におけるオンライン学習の問題について検討する。
本稿では,Russo と Van Roy によるベイズ的情報指向サンプリングの理論と,決定推定係数に基づく Foster, Kakade Qian および Rakhlin (2021) の最悪のケース理論を橋渡しする新たな分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.649996130302466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online learning in contextual bandit problems where
the loss function is assumed to belong to a known parametric function class. We
propose a new analytic framework for this setting that bridges the Bayesian
theory of information-directed sampling due to Russo and Van Roy (2018) and the
worst-case theory of Foster, Kakade, Qian, and Rakhlin (2021) based on the
decision-estimation coefficient. Drawing from both lines of work, we propose a
algorithmic template called Optimistic Information-Directed Sampling and show
that it can achieve instance-dependent regret guarantees similar to the ones
achievable by the classic Bayesian IDS method, but with the major advantage of
not requiring any Bayesian assumptions. The key technical innovation of our
analysis is introducing an optimistic surrogate model for the regret and using
it to define a frequentist version of the Information Ratio of Russo and Van
Roy (2018), and a less conservative version of the Decision Estimation
Coefficient of Foster et al. (2021). Keywords: Contextual bandits,
information-directed sampling, decision estimation coefficient, first-order
regret bounds.
- Abstract(参考訳): 本研究では、損失関数が既知のパラメトリック関数クラスに属すると仮定された文脈的バンディット問題におけるオンライン学習の問題について検討する。
そこで本研究では,ルッソとファン・ロイ(2018)による情報指向サンプリングのベイズ理論と,決定推定係数に基づくフォスター,カカデ,キアン,ラークリン(2021)の最悪の場合の理論を橋渡しする新たな解析枠組みを提案する。
両者の作業線から,楽観的情報指向サンプリングと呼ばれるアルゴリズムテンプレートを提案し,従来のベイズ型ids法で実現可能なものと類似したインスタンス依存の後悔保証を実現するが,ベイズ型仮定を必要としないという大きな利点があることを示す。
我々の分析の重要な技術的革新は、後悔に対する楽観的な代理モデルを導入し、それを使って、RussoとVan RoyのInformation Ratio(2018)の頻繁なバージョンと、FosterらのDecision Estimation Coefficient(2021)のより保守的なバージョンを定義することです。
キーワード:コンテキストバンディット、情報指向サンプリング、決定推定係数、一階の後悔境界。
関連論文リスト
- Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit Learnability [71.82666334363174]
我々は,統計的推定と対話的意思決定において,下位境界法のための統一的なフレームワークを開発する。
対話型意思決定のための新しい下位境界の複雑さを促進する新しい尺度である決定次元を導入する。
論文 参考訳(メタデータ) (2024-10-07T15:14:58Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Lifting the Information Ratio: An Information-Theoretic Analysis of
Thompson Sampling for Contextual Bandits [17.470829701201435]
我々は,RussoとVan Royの情報理論的視点を,情報比という新たな概念を導入して,文脈設定に適用する。
これにより、非常に単純な証明を通じて、先行分布のエントロピーの観点から、後悔を束縛することができる。
興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K アクション、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない$widetildeO(sqrtdKT)$ regret上界を提供する。
論文 参考訳(メタデータ) (2022-05-27T12:04:07Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Contributions to Large Scale Bayesian Inference and Adversarial Machine
Learning [0.0]
ML手法の急速な採用により、モデルは通常、予測の不確実性を考慮せずに決定を下すために採用されていることが明らかになった。
我々は,予測的説明の不確実性を考慮したMLシステムの開発が現実のタスクにとって必須であると考えている。
論文 参考訳(メタデータ) (2021-09-25T23:02:47Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Towards Robust and Reliable Algorithmic Recourse [11.887537452826624]
モデルシフトに堅牢なリコースを見つけるための敵対的トレーニングを活用する新しいフレームワークであるRObust Algorithmic Recourse(ROAR)を提案します。
また,モデルシフトにロバストなリコースの構築の重要性を強調する詳細な理論解析を行う。
論文 参考訳(メタデータ) (2021-02-26T17:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。