論文の概要: Mirror Descent and the Information Ratio
- arxiv url: http://arxiv.org/abs/2009.12228v1
- Date: Fri, 25 Sep 2020 13:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:39:18.083304
- Title: Mirror Descent and the Information Ratio
- Title(参考訳): 鏡の輝きと情報比
- Authors: Tor Lattimore and Andr\'as Gy\"orgy
- Abstract要約: 我々は,鏡面降下の安定性とRussoとVan Royによる情報比の関連性を確立する。
解析の結果, 適切な損失推定器と探索分布を持つミラー降下は, ベイジアン後悔に対する情報指向サンプリングの限界と同様, 逆の後悔に関係していることがわかった。
- 参考スコア(独自算出の注目度): 28.93486346263364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish a connection between the stability of mirror descent and the
information ratio by Russo and Van Roy [2014]. Our analysis shows that mirror
descent with suitable loss estimators and exploratory distributions enjoys the
same bound on the adversarial regret as the bounds on the Bayesian regret for
information-directed sampling. Along the way, we develop the theory for
information-directed sampling and provide an efficient algorithm for
adversarial bandits for which the regret upper bound matches exactly the best
known information-theoretic upper bound.
- Abstract(参考訳): ミラー降下の安定性と,russo と van roy [2014] による情報比との関係を確立する。
解析の結果, 適切な損失推定器と探索分布を持つミラー降下は, ベイジアン後悔に対する情報指向サンプリングの限界と同様, 逆の後悔に関係していることがわかった。
その過程で、情報指向サンプリングの理論を開発し、後悔の上界が最もよく知られた情報理論上界と正確に一致するような敵の包帯に対する効率的なアルゴリズムを提供する。
関連論文リスト
- Rethinking Distance Metrics for Counterfactual Explainability [53.436414009687]
本研究では, 反事実を参照領域から独立して引き出すのではなく, 基礎となるデータ分布からの参照と共同してサンプリングする, 反事実生成手法のフレーミングについて検討する。
我々は、幅広い設定に適用可能な、反ファクト的な類似性のために調整された距離メートル法を導出する。
論文 参考訳(メタデータ) (2024-10-18T15:06:50Z) - Non-stochastic Bandits With Evolving Observations [47.61533665679308]
既存のモデルを統一し一般化する新しいオンライン学習フレームワークを導入する。
我々は,全情報設定と帯域幅設定の両方に対して,後悔の最小化アルゴリズムを提案する。
我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
論文 参考訳(メタデータ) (2024-05-27T05:32:46Z) - Optimistic Information Directed Sampling [15.704243709119726]
本研究では、損失関数が既知のパラメトリック関数クラスに属すると仮定された文脈的帯域幅問題におけるオンライン学習の問題について検討する。
本稿では,Russo と Van Roy によるベイズ的情報指向サンプリングの理論と,決定推定係数に基づく Foster, Kakade Qian および Rakhlin (2021) の最悪のケース理論を橋渡しする新たな分析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T16:19:32Z) - An analysis of the noise schedule for score-based generative models [7.180235086275926]
対象分布と推定分布とのKL分散の上限を確立する。
We provide a tighter error bound in Wasserstein distance than the state-of-the-art results。
論文 参考訳(メタデータ) (2024-02-07T08:24:35Z) - Lifting the Information Ratio: An Information-Theoretic Analysis of
Thompson Sampling for Contextual Bandits [17.470829701201435]
我々は,RussoとVan Royの情報理論的視点を,情報比という新たな概念を導入して,文脈設定に適用する。
これにより、非常に単純な証明を通じて、先行分布のエントロピーの観点から、後悔を束縛することができる。
興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K アクション、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない$widetildeO(sqrtdKT)$ regret上界を提供する。
論文 参考訳(メタデータ) (2022-05-27T12:04:07Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Information Directed Sampling for Linear Partial Monitoring [112.05623123909895]
線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
論文 参考訳(メタデータ) (2020-02-25T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。