論文の概要: Optimal Strategies for Decision Theoretic Online Learning
- arxiv url: http://arxiv.org/abs/2106.10717v1
- Date: Sun, 20 Jun 2021 15:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 08:32:56.012575
- Title: Optimal Strategies for Decision Theoretic Online Learning
- Title(参考訳): 意思決定理論オンライン学習の最適戦略
- Authors: Yoav Freund
- Abstract要約: ドリフトゲーム解析を連続時間まで拡張し、値関数が厳密な正の微分を持つときの最適逆数がブロニアン運動であることを示す。
- 参考スコア(独自算出の注目度): 5.787117733071415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend the drifting games analysis to continuous time and show that the
optimal adversary, if the value function has strictly positive derivative up to
fourth order is bronian motion.
- Abstract(参考訳): ドリフトゲーム解析を連続時間まで拡張し、値関数が厳密な正の微分を持つときの最適逆数がブロニアン運動であることを示す。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Learning-Rate-Free Stochastic Optimization over Riemannian Manifolds [1.6385815610837167]
そこで本研究では,リーマン数に対する最適化のための革新的な学習速度自由アルゴリズムを提案する。
我々は、決定論的設定において最もよく知られた最適調整率と比較して、対数的要因まで最適である高い確率収束を保証する。
提案手法は数値実験によって検証され,学習速度依存アルゴリズムに対する競合性能が実証された。
論文 参考訳(メタデータ) (2024-06-04T13:17:24Z) - Reinforcement Learning for Credit Index Option Hedging [2.568904868787359]
本稿では,強化学習を用いたクレジットインデックスオプションの最適ヘッジ戦略の探索に焦点をあてる。
実践的なアプローチでは、離散時間、トランザクションコスト、実際の市場データに対するポリシーのテストなど、リアリズムに重点を置いています。
論文 参考訳(メタデータ) (2023-07-19T09:03:41Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Learning Security Strategies through Game Play and Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
我々は攻撃者とディフェンダーとの相互作用を最適な停止ゲームとして定式化する。
最適なディフェンダー戦略を得るために,架空の自己再生アルゴリズムであるT-FPを導入する。
論文 参考訳(メタデータ) (2022-05-29T15:30:00Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Domain Adversarial Training: A Game Perspective [80.3821370633883]
本稿では,ゲーム理論の観点から,ドメイン・アドバイザ・トレーニングにおける最適解を定義する。
ドメイン・アドバイザリ・トレーニングにおける降下は、グラデーションの収束保証に違反し、しばしば転送性能を損なう可能性があることを示す。
実装は簡単で、追加のパラメータが不要で、あらゆるドメイン・アドバイザリ・フレームワークにプラグインすることができます。
論文 参考訳(メタデータ) (2022-02-10T22:17:30Z) - Amortized Q-learning with Model-based Action Proposals for Autonomous
Driving on Highways [10.687104237121408]
トラジェクティブプランナーと組み合わせて、最適な長期運転戦略を学習する強化学習に基づくアプローチを導入する。
局所最適操作をアクションとしてオンラインに生成することにより、無限の低レベル連続アクション空間と、予め定義された標準レーン変更アクションの固定数の限られた柔軟性のバランスをとることができる。
論文 参考訳(メタデータ) (2020-12-06T11:04:40Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z) - On the Loss Landscape of Adversarial Training: Identifying Challenges
and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。
曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文 参考訳(メタデータ) (2020-06-15T13:50:23Z) - Control Frequency Adaptation via Action Persistence in Batch
Reinforcement Learning [40.94323379769606]
本稿では,一定回数の決定ステップに対するアクションの繰り返しを構成する動作持続性の概念を紹介する。
本稿では,FQIを拡張する新しいアルゴリズムであるPersistent Fitted Q-Iteration(PFQI)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。