論文の概要: A Short Note on Soft-max and Policy Gradients in Bandits Problems
- arxiv url: http://arxiv.org/abs/2007.10297v1
- Date: Mon, 20 Jul 2020 17:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:56:53.040927
- Title: A Short Note on Soft-max and Policy Gradients in Bandits Problems
- Title(参考訳): バンディット問題におけるソフトマックスと政策勾配について
- Authors: Neil Walton
- Abstract要約: バンディット問題に対するソフトマックス常微分方程式に対する後悔の束縛を与える短い議論を与える。
我々は、またもやバンディット問題に対して、異なるポリシー勾配アルゴリズムに対して同様の結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is a short communication on a Lyapunov function argument for softmax in
bandit problems. There are a number of excellent papers coming out using
differential equations for policy gradient algorithms in reinforcement learning
\cite{agarwal2019optimality,bhandari2019global,mei2020global}. We give a short
argument that gives a regret bound for the soft-max ordinary differential
equation for bandit problems. We derive a similar result for a different policy
gradient algorithm, again for bandit problems. For this second algorithm, it is
possible to prove regret bounds in the stochastic case \cite{DW20}. At the end,
we summarize some ideas and issues on deriving stochastic regret bounds for
policy gradients.
- Abstract(参考訳): これは、バンドイット問題におけるソフトマックスに対するリャプノフ関数引数の短い通信である。
agarwal2019optimality,bhandari2019global,mei2020global} 強化学習におけるポリシー勾配アルゴリズムの微分方程式を用いた優れた論文が数多く出されている。
我々は、バンドイット問題に対するソフトマックス常微分方程式に対する後悔を与える短い議論を与える。
我々は、またもやバンディット問題に対して、異なるポリシー勾配アルゴリズムに対して同様の結果を得る。
この第二のアルゴリズムでは、確率ケース \cite{dw20} における後悔の境界を証明することができる。
最後に、政策勾配の確率的後悔の境界を導出するいくつかのアイデアと課題を要約する。
関連論文リスト
- Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression [65.8785736964253]
本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。
この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。
本稿では,回帰オラクルに基づくCBwLC(CBwK)のアルゴリズムについて述べる。このアルゴリズムは単純で,計算効率が良く,統計的に最適である。
論文 参考訳(メタデータ) (2022-11-14T16:08:44Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - Instance-Dependent Regret Analysis of Kernelized Bandits [19.252319300590653]
雑音の多いゼロオーダーオーラを問合せするための適応戦略を設計することを含む、カーネル化された帯域幅問題について検討する。
正規化された累積後悔を解消する(関数クラス上)アルゴリズムに対して、不一致依存的後悔の下限を導出する。
論文 参考訳(メタデータ) (2022-03-12T00:53:59Z) - Risk and optimal policies in bandit experiments [0.0]
本稿では,バンディット実験の意思決定理論解析について述べる。
バンディット設定は動的プログラミング問題に対応するが、これを直接解くことは一般的に不可能である。
通常分散報酬の場合、最小ベイズリスクは非線形二階偏微分方程式の解として特徴づけられる。
論文 参考訳(メタデータ) (2021-12-13T00:41:19Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。