論文の概要: mlOSP: Towards a Unified Implementation of Regression Monte Carlo
Algorithms
- arxiv url: http://arxiv.org/abs/2012.00729v1
- Date: Tue, 1 Dec 2020 18:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:38:08.660906
- Title: mlOSP: Towards a Unified Implementation of Regression Monte Carlo
Algorithms
- Title(参考訳): mlOSP: 回帰モンテカルロアルゴリズムの統一実装に向けて
- Authors: Mike Ludkovski
- Abstract要約: 最適停止問題に対する機械学習のための計算テンプレートであるmlOSPを紹介する。
テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce mlOSP, a computational template for Machine Learning for Optimal
Stopping Problems. The template is implemented in the R statistical environment
and publicly available via a GitHub repository. mlOSP presents a unified
numerical implementation of Regression Monte Carlo (RMC) approaches to optimal
stopping, providing a state-of-the-art, open-source, reproducible and
transparent platform. Highlighting its modular nature, we present multiple
novel variants of RMC algorithms, especially in terms of constructing
simulation designs for training the regressors, as well as in terms of machine
learning regression modules. At the same time, mlOSP nests most of the existing
RMC schemes, allowing for a consistent and verifiable benchmarking of extant
algorithms. The article contains extensive R code snippets and figures, and
serves the dual role of presenting new RMC features and as a vignette to the
underlying software package.
- Abstract(参考訳): 最適停止問題に対する機械学習のための計算テンプレートであるmlospを提案する。
テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。
mlOSPは、Regression Monte Carlo(RMC)アプローチの統一的な数値実装を最適停止に提供し、最先端、オープンソース、再現可能、透明なプラットフォームを提供する。
そのモジュラー性を強調し、特にレグレプタのトレーニングのためのシミュレーション設計や機械学習回帰モジュールの観点で、rmcアルゴリズムの複数の新しい変種を提示する。
同時に、mlOSPは既存のRCCスキームのほとんどをネストし、既存のアルゴリズムの一貫性と検証可能なベンチマークを可能にする。
この記事にはRのコードスニペットとフィギュアが含まれており、新しいRCC機能を示し、基盤となるソフトウェアパッケージにウィグレットとしての役割を兼ねている。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - A Wasserstein Minimax Framework for Mixed Linear Regression [69.40394595795544]
マルチモーダル分布は、学習タスクにおいてクラスタ化されたデータをモデル化するために一般的に使用される。
混合線形回帰問題に対する最適輸送ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-14T16:03:51Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Performance-Weighed Policy Sampling for Meta-Reinforcement Learning [1.77898701462905]
強化モデル非依存メタラーニング(E-MAML)は、少数のトレーニング例からポリシー関数の高速収束を生成する。
E-MAMLは、以前のタスクの環境で学んだ一連のポリシーパラメータを保持する。
E-MAMLを強化学習(RL)ベースのオンラインフォールトトレラント制御スキームの開発に適用する。
論文 参考訳(メタデータ) (2020-12-10T23:08:38Z) - On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning [25.163423936635787]
強化学習(RL)問題に対するモデル非依存メタラーニング(MAML)手法を検討する。
我々は,SG-MRL(Gradient Meta-Reinforcement Learning)と呼ばれるMAML手法の変種を提案する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$ilon$-first-orderの定常点を求める。
論文 参考訳(メタデータ) (2020-02-12T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。