論文の概要: Regret Analysis of Dyadic Search
- arxiv url: http://arxiv.org/abs/2209.00885v1
- Date: Fri, 2 Sep 2022 08:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:55:07.113594
- Title: Regret Analysis of Dyadic Search
- Title(参考訳): dyadic searchの後悔分析
- Authors: Fran\c{c}ois Bachoc, Tommaso Cesari, Roberto Colomboni, Andrea Paudice
- Abstract要約: Bachoc et al の Dyadic Search アルゴリズムの累積的後悔を解析する。
この記事は最初、ピアツーピアのオンラインジャーナルであるThe Conversationに掲載された。
- 参考スコア(独自算出の注目度): 4.608510640547952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the cumulative regret of the Dyadic Search algorithm of Bachoc et
al. [2022].
- Abstract(参考訳): BachocらによるDyadic Searchアルゴリズムの累積的後悔を分析した。
[2022].
関連論文リスト
- Rectangle Search: An Anytime Beam Search (Extended Version) [9.59799149404787]
任意の検索アルゴリズムは、(潜在的に最適でない)解をできるだけ早く見つけようとする。
本稿では,ビーム探索に基づく新しい長方形探索法を提案する。
論文 参考訳(メタデータ) (2023-12-19T19:50:45Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Exponential Bellman Equation and Improved Regret Bounds for
Risk-Sensitive Reinforcement Learning [106.20712175398275]
エントロピーリスク尺度に基づいて,リスク感応性強化学習(RL)について検討した。
我々は、既存のアルゴリズムの欠陥と、そのようなギャップをもたらすそれらの分析を識別する。
これらの分析的およびアルゴリズム的革新が組み合わさって、既存のものに対する後悔の上限を改善できることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:35:18Z) - An Analysis of Reinforcement Learning for Malaria Control [1.0323063834827415]
本稿では,マラリア対策の定式化について検討し,文献におけるいくつかの定式化の包括的分析について述べる。
これまでの研究とは対照的に, 上位信頼境界に基づく単純なアルゴリズムは, 優れたマラリア政策を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-07-19T16:00:40Z) - Limited depth bandit-based strategy for Monte Carlo planning in
continuous action spaces [4.1208902102156015]
本稿では,階層最適化(HOO)アルゴリズムの限界深度変種であるLD-HOOを提案する。
提案アルゴリズムは,より高速で,よりメモリ効率のよいオリジナルのHOOと同様の累積的後悔を示す。
次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-29T17:30:01Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Critical Analysis: Bat Algorithm based Investigation and Application on
Several Domains [1.1802674324027231]
このアルゴリズムのアイデアはコウモリのエコーロケーション能力から取られた。
バットアルゴリズムは、背景、特徴、制限の観点から詳細に与えられる。
論文 参考訳(メタデータ) (2021-01-18T19:25:12Z) - Beyond the Worst-Case Analysis of Algorithms (Introduction) [13.965228845332865]
最悪のケース分析では、与えられたサイズの入力に対して、アルゴリズムのパフォーマンスプロファイルを最悪のパフォーマンスで要約する。
この章では、本書の後半で詳細に議論されている最悪のケース分析のいくつかの選択肢について調査する。
論文 参考訳(メタデータ) (2020-07-26T23:18:19Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Greedy Algorithm almost Dominates in Smoothed Contextual Bandits [100.09904315064372]
オンライン学習アルゴリズムは探索と搾取のバランスをとる必要がある。
欲求的アプローチは、他のアルゴリズムのベイズ的後悔率とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2020-05-19T18:11:40Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。