論文の概要: An improved regret analysis for UCB-N and TS-N
- arxiv url: http://arxiv.org/abs/2305.04093v1
- Date: Sat, 6 May 2023 16:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:38:55.151826
- Title: An improved regret analysis for UCB-N and TS-N
- Title(参考訳): UCB-NとTS-Nの再発解析の改善
- Authors: Nishant A. Mehta
- Abstract要約: 本稿では,Lykouris et al.の擬似回帰分析を改善する方法について述べる。
私たちの改善には、以前の分析の重要な補題を精査する必要があります。
- 参考スコア(独自算出の注目度): 5.063728016437489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the setting of stochastic online learning with undirected feedback graphs,
Lykouris et al. (2020) previously analyzed the pseudo-regret of the upper
confidence bound-based algorithm UCB-N and the Thompson Sampling-based
algorithm TS-N. In this note, we show how to improve their pseudo-regret
analysis. Our improvement involves refining a key lemma of the previous
analysis, allowing a $\log(T)$ factor to be replaced by a factor
$\log_2(\alpha) + 3$ for $\alpha$ the independence number of the feedback
graph.
- Abstract(参考訳): 無向フィードバックグラフを用いた確率的オンライン学習の設定において、Lykouris et al. (2020) は以前、上位信頼境界ベースアルゴリズム UCB-N とトンプソンサンプリングベースアルゴリズム TS-N の擬似回帰を分析した。
本稿では,その擬似回帰分析を改善する方法について述べる。
我々の改善には、以前の分析の重要な補題を書き換えることが含まれており、$\log(T)$ factor を $\log_2(\alpha) + 3$ for $\alpha$ フィードバックグラフの独立数に置き換えることができる。
関連論文リスト
- Regret Analysis for Randomized Gaussian Process Upper Confidence Bound [9.967062483758632]
本稿では,GP-UCBの改良型であるGP-UCBのランダム化変異を解析する。
両方の後悔解析において、IRGP-UCBは入力領域が有限であれば信頼パラメータを増大させることなく、サブ線形後悔上限を達成する。
論文 参考訳(メタデータ) (2024-09-02T06:49:29Z) - Prior-dependent analysis of posterior sampling reinforcement learning with function approximation [19.505117288012148]
この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。
機能近似を用いたRLに対する最初の事前依存型ベイズ後悔法を確立し, 後方サンプリング強化学習(PSRL)のためのベイズ後悔解析を洗練させる。
上限は$mathcalO(dsqrtH3 T log T)$で、$d$は遷移カーネルの次元を表し、$H$は計画地平線、$T$は相互作用の総数を表す。
論文 参考訳(メタデータ) (2024-03-17T11:23:51Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Stability and Generalization of lp-Regularized Stochastic Learning for
GCN [9.517209629978057]
グラフ畳み込みネットワーク(GCN)は、グラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つである。
本稿では,一般的な$ell_p$-regularized $ (1pleq 2)$ Learningアルゴリズムを用いて,GCNの滑らかさと疎さのトレードオフを定量化する。
論文 参考訳(メタデータ) (2023-05-20T03:49:29Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - An $\alpha$-No-Regret Algorithm For Graphical Bilinear Bandits [15.29268368415036]
本稿では,グラフィカルビリニア帯域問題に対する最初の後悔に基づくアプローチを提案する。
本稿では,不確実性に直面した楽観主義の原理を用いて,バイリニアバンディットに対する最初の後悔に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T12:55:17Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。