論文の概要: Minimizing the Outage Probability in a Markov Decision Process
- arxiv url: http://arxiv.org/abs/2302.14714v1
- Date: Tue, 28 Feb 2023 16:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:28:57.702574
- Title: Minimizing the Outage Probability in a Markov Decision Process
- Title(参考訳): マルコフ決定過程における故障確率の最小化
- Authors: Vincent Corlay and Jean-Christophe Sibel
- Abstract要約: 本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。
提案アルゴリズムは値反復アルゴリズムの拡張と見なすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Markov decision process (MDP) and reinforcement learning algorithms
optimize the policy with respect to the expected gain. We propose an algorithm
which enables to optimize an alternative objective: the probability that the
gain is greater than a given value. The algorithm can be seen as an extension
of the value iteration algorithm. We also show how the proposed algorithm could
be generalized to use neural networks, similarly to the deep Q learning
extension of Q learning.
- Abstract(参考訳): 標準マルコフ決定プロセス(MDP)と強化学習アルゴリズムは、期待される利益に関してポリシーを最適化する。
本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。
このアルゴリズムは、値反復アルゴリズムの拡張と見なすことができる。
また、Q学習の深層学習拡張と同様、提案アルゴリズムがニューラルネットワークの使用にどのように一般化できるかを示す。
関連論文リスト
- Large Language Model-Enhanced Algorithm Selection: Towards Comprehensive
Algorithm Representation [29.37257570009215]
本稿では,アルゴリズム選択プロセスにアルゴリズム表現を統合するアプローチを提案する。
特に,提案モデルでは,問題とアルゴリズムの両方の表現を抽出するために,異なるモジュールを用いる。
アルゴリズムと問題の両方に対する埋め込みベクトルの抽出に続いて、最も適切なアルゴリズムは一致する次数の計算によって決定される。
論文 参考訳(メタデータ) (2023-11-22T06:23:18Z) - PNN: From proximal algorithms to robust unfolded image denoising
networks and Plug-and-Play methods [7.317910352447519]
本稿では,二元FBと二元Chambolle-Pockアルゴリズムの両方に基づいて,ガウス分母タスクのためのPNNを統一的に構築するフレームワークを提案する。
また、これらのアルゴリズムの高速化により、関連するNN層におけるスキップ接続が可能であることを示す。
論文 参考訳(メタデータ) (2023-08-06T15:32:16Z) - Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning
Problems [0.7614628596146599]
古典的なSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。
妥当な条件下では、アルゴリズムは十分に確立された理論的な要件に従ってステップ長を生成する。
このアルゴリズムは,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-17T06:22:11Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - A Probabilistically Motivated Learning Rate Adaptation for Stochastic
Optimization [20.77923050735746]
一般的な一階法に対して,ガウス推論の観点からの確率的動機付けを提供する。
この推論により、トレーニング中に自動的に適応できる無次元量に学習率を関連付けることができる。
得られたメタアルゴリズムは、学習率を幅広い初期値にわたって頑健に適応させることが示される。
論文 参考訳(メタデータ) (2021-02-22T10:26:31Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Meta-Algorithm Selection [78.13985819417974]
インスタンス固有のアルゴリズム選択(AS)は、固定された候補集合からのアルゴリズムの自動選択を扱う。
メタアルゴリズムの選択は、いくつかのケースで有益であることを示す。
論文 参考訳(メタデータ) (2020-11-17T17:27:33Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。