論文の概要: A Refined Analysis of UCBVI
- arxiv url: http://arxiv.org/abs/2502.17370v1
- Date: Mon, 24 Feb 2025 17:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:56.571109
- Title: A Refined Analysis of UCBVI
- Title(参考訳): UCBVIの精製解析
- Authors: Simone Drago, Marco Mussi, Alberto Maria Metelli,
- Abstract要約: 我々は, UCBVIアルゴリズム(Azar et al., 2017)の精巧な解析を行い,ボーナス項と後悔解析の両方を改善した。
UCBVIのオリジナルバージョンと最先端MVPアルゴリズムを比較した。
実験による検証により, 境界における乗法定数の改善は, アルゴリズムの経験的性能に有意な正の影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 18.662468634576218
- License:
- Abstract: In this work, we provide a refined analysis of the UCBVI algorithm (Azar et al., 2017), improving both the bonus terms and the regret analysis. Additionally, we compare our version of UCBVI with both its original version and the state-of-the-art MVP algorithm. Our empirical validation demonstrates that improving the multiplicative constants in the bounds has significant positive effects on the empirical performance of the algorithms.
- Abstract(参考訳): 本研究では, UCBVIアルゴリズム(Azar et al , 2017)の精巧な解析を行い,ボーナス項と後悔解析の両方を改善した。
さらに、UCBVIのオリジナルバージョンと最先端MVPアルゴリズムを比較します。
実験による検証により, 境界における乗法定数の改善は, アルゴリズムの経験的性能に有意な正の影響を及ぼすことが示された。
関連論文リスト
- LPBSA: Enhancing Optimization Efficiency through Learner Performance-based Behavior and Simulated Annealing [4.939986309170004]
LPBSAは、Learner Performance-based Behavior (LPB)とSimulated Annealing (SA)をハイブリッドアプローチで組み合わせた高度な最適化アルゴリズムである。
LPBSAはLPBよりも優れた性能を示し、PSO、FDO、LEO、GAといった確立したアルゴリズムと競合する。
論文 参考訳(メタデータ) (2024-12-23T16:57:47Z) - Approximate FW Algorithm with a novel DMO method over Graph-structured Support Set [0.2302001830524133]
我々は、元のアルゴリズムを分析し、実装し、それに基づいていくつかの拡張を導入した。
新しいDMO法では十分な改善が得られなかったが,バックトラックライン探索法は効率よくイテレーション数を削減した。
論文 参考訳(メタデータ) (2024-11-07T03:04:58Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Tighter Performance Theory of FedExProx [85.92481138826949]
我々は最近提案した分散最適化法であるFedExProxを再検討し,外挿による並列アルゴリズムの収束特性の向上を図った。
非強凸二次問題に対して、より厳密な線形収束率を確立するための新しい解析フレームワークを開発する。
解析の応用性はPolyak-Lojasiewicz条件を満たす一般関数に拡張され、以前の強い凸解析よりも優れていた。
論文 参考訳(メタデータ) (2024-10-20T11:53:25Z) - An Element-wise RSAV Algorithm for Unconstrained Optimization Problems [13.975774245256561]
本稿では,新しい最適化アルゴリズムである要素緩和スカラー補助変数(E-RSAV)を提案する。
このアルゴリズムは凸設定における線形収束の厳密な証明を特徴とする。
また,ステッフェンセンステップサイズを持つ適応型E-RSAVを提案する。
論文 参考訳(メタデータ) (2023-09-07T20:37:23Z) - On the Convergence of Coordinate Ascent Variational Inference [11.166959724276337]
平均場 (MF) VI を実装するための共通座標アセント変分推論 (CAVI) アルゴリズムについて検討する。
我々はCAVIの大域的あるいは局所的な指数収束を証明するための一般的な条件を提供する。
目的関数に影響を及ぼす構成ブロック間の相互作用を特徴付けるための一般化相関の新しい概念を紹介する。
論文 参考訳(メタデータ) (2023-06-01T20:19:30Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Explicit homography estimation improves contrastive self-supervised
learning [0.30458514384586394]
本稿では,自己教師付きコントラスト学習パラダイムにおける追加目標として機能するモジュールを提案する。
アフィン変換やホモグラフィのパラメータをレグレッションするためにこのモジュールを組み込むことで、パフォーマンスと学習速度の両方が向上することを示す。
論文 参考訳(メタデータ) (2021-01-12T19:33:37Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。