論文の概要: The Gambler's Problem and Beyond
- arxiv url: http://arxiv.org/abs/2001.00102v3
- Date: Sun, 12 Jul 2020 12:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:05:49.646382
- Title: The Gambler's Problem and Beyond
- Title(参考訳): ギャンブラーの問題とそれ以上
- Authors: Baoxiang Wang, Shuai Li, Jiajin Li, Siu On Chan
- Abstract要約: ギャンブラー問題(ギャンブラー問題)は、ギャンブラーが目標に達するまで賭けを倍増または失うという単純な強化学習問題である。
離散ケースと連続ケースの両方に対して最適値関数の正確な式を提供する。
我々の分析は、値関数近似、勾配に基づくアルゴリズム、Q-ラーニングの改善に関する洞察を提供することができる。
- 参考スコア(独自算出の注目度): 23.06252897760154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the Gambler's problem, a simple reinforcement learning problem
where the gambler has the chance to double or lose the bets until the target is
reached. This is an early example introduced in the reinforcement learning
textbook by Sutton and Barto (2018), where they mention an interesting pattern
of the optimal value function with high-frequency components and repeating
non-smooth points. It is however without further investigation. We provide the
exact formula for the optimal value function for both the discrete and the
continuous cases. Though simple as it might seem, the value function is
pathological: fractal, self-similar, derivative taking either zero or infinity,
and not written as elementary functions. It is in fact one of the generalized
Cantor functions, where it holds a complexity that has been uncharted thus far.
Our analyses could provide insights into improving value function
approximation, gradient-based algorithms, and Q-learning, in real applications
and implementations.
- Abstract(参考訳): 我々は,ギャンブラーが目標に達するまで賭けを2倍にしたり負けたりする,単純な強化学習問題であるギャンブラーの問題を解析する。
これは、sutton and barto (2018) による強化学習教科書で紹介された初期の例であり、高周波成分と非スムース点を繰り返した最適値関数の興味深いパターンについて言及している。
しかし、それ以上の調査は行われていない。
離散ケースと連続ケースの両方に対して最適値関数の正確な式を提供する。
単純に見えるが、値関数は病的であり、フラクタル、自己相似、微分はゼロか無限かのいずれかを取るが、初等関数として書かれない。
実際、これは一般化されたカントール函数の1つであり、これまでチャージされていない複雑性を持っている。
我々の分析は、実アプリケーションや実装における価値関数近似、勾配に基づくアルゴリズム、Qラーニングの改善に関する洞察を提供することができる。
関連論文リスト
- Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Contextual Continuum Bandits: Static Versus Dynamic Regret [70.71582850199871]
本研究では,学習者が側情報ベクトルを逐次受信し,凸集合内の行動を選択する,文脈連続帯域幅問題について検討する。
線形な静的な後悔を実現するアルゴリズムは,任意のアルゴリズムを拡張して,線形な動的後悔を実現することができることを示す。
インテリアポイント法にインスパイアされ,自己協和障壁を用いるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:12:08Z) - Robustly Learning Single-Index Models via Alignment Sharpness [40.886706402941435]
単行数モデル学習の問題点を,無知モデルにおける損失$L2$で検討する。
最適損失に対する定数係数近似を達成し,効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-27T18:48:07Z) - Efficient uniform approximation using Random Vector Functional Link
networks [0.0]
ランダムベクトル関数リンク(英: Random Vector Functional Link, RVFL)は、ランダムな内部ノードとバイアスを持つディープ2ニューラルネットワークである。
本稿では、ReLUアクティベートされたRVFLがLipschitzターゲット関数を近似できることを示す。
我々の証明法は理論と調和解析に根ざしている。
論文 参考訳(メタデータ) (2023-06-30T09:25:03Z) - Gradient-free optimization of highly smooth functions: improved analysis
and a new algorithm [87.22224691317766]
この研究は、目的関数が極めて滑らかであるという仮定の下で、ゼロ次ノイズオラクル情報による問題を研究する。
ゼロオーダー射影勾配勾配アルゴリズムを2種類検討する。
論文 参考訳(メタデータ) (2023-06-03T17:05:13Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。