論文の概要: $ε$-Policy Gradient for Online Pricing
- arxiv url: http://arxiv.org/abs/2405.03624v1
- Date: Mon, 6 May 2024 16:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:07:25.307907
- Title: $ε$-Policy Gradient for Online Pricing
- Title(参考訳): オンライン価格の$ε$-Policy Gradient
- Authors: Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang,
- Abstract要約: オンライン価格学習タスクのための$epsilon$-policyグラデーションアルゴリズムを解析する。
このアルゴリズムは、$mathcalO(sqrtT)$$$T$以上の試行錯誤を実現する。
- 参考スコア(独自算出の注目度): 8.701638362737953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining model-based and model-free reinforcement learning approaches, this paper proposes and analyzes an $\epsilon$-policy gradient algorithm for the online pricing learning task. The algorithm extends $\epsilon$-greedy algorithm by replacing greedy exploitation with gradient descent step and facilitates learning via model inference. We optimize the regret of the proposed algorithm by quantifying the exploration cost in terms of the exploration probability $\epsilon$ and the exploitation cost in terms of the gradient descent optimization and gradient estimation errors. The algorithm achieves an expected regret of order $\mathcal{O}(\sqrt{T})$ (up to a logarithmic factor) over $T$ trials.
- Abstract(参考訳): 本稿では,モデルベースとモデルフリー強化学習を併用して,オンライン価格学習タスクのための$\epsilon$-policyグラデーションアルゴリズムを提案し,解析する。
このアルゴリズムは、greedy利用を勾配降下ステップに置き換え、モデル推論による学習を容易にすることで、$\epsilon$-greedyアルゴリズムを拡張している。
探索確率$\epsilon$と、勾配勾配最適化と勾配推定誤差の観点から、探索コストを定量化し、提案アルゴリズムの後悔を最適化する。
このアルゴリズムは、$T$の試行に対して$\mathcal{O}(\sqrt{T})$(対数係数まで)を期待された後悔を達成する。
関連論文リスト
- Efficient Exploration in Average-Reward Constrained Reinforcement Learning: Achieving Near-Optimal Regret With Posterior Sampling [14.776559457850624]
制約付きマルコフ決定過程(CMDP)における学習のための後方サンプリングに基づく新しいアルゴリズムを提案する。
このアルゴリズムは,既存のアルゴリズムと比較して経験的に有利でありながら,ほぼ最適の後悔境界を達成している。
論文 参考訳(メタデータ) (2024-05-29T11:59:56Z) - Differentially-Private Hierarchical Clustering with Provable
Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。
例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。
本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-31T19:14:30Z) - Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。
従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。
提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文 参考訳(メタデータ) (2022-05-17T11:56:50Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Joint Optimization of Multi-Objective Reinforcement Learning with Policy
Gradient Based Algorithm [34.77250498401055]
複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対してポリシー段階に基づくモデルフリーアルゴリズムを提案する。
提案アルゴリズムは,グローバルオプティマの$epsilon$以内に収束することが示されている。
論文 参考訳(メタデータ) (2021-05-28T22:20:54Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。