Fugu-MT 論文翻訳(概要): Minimizing the Outage Probability in a Markov Decision Process

論文の概要: Minimizing the Outage Probability in a Markov Decision Process

arxiv url: http://arxiv.org/abs/2302.14714v1
Date: Tue, 28 Feb 2023 16:26:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-01 15:28:57.702574
Title: Minimizing the Outage Probability in a Markov Decision Process
Title（参考訳）: マルコフ決定過程における故障確率の最小化
Authors: Vincent Corlay and Jean-Christophe Sibel
Abstract要約: 本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。提案アルゴリズムは値反復アルゴリズムの拡張と見なすことができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard Markov decision process (MDP) and reinforcement learning algorithms optimize the policy with respect to the expected gain. We propose an algorithm which enables to optimize an alternative objective: the probability that the gain is greater than a given value. The algorithm can be seen as an extension of the value iteration algorithm. We also show how the proposed algorithm could be generalized to use neural networks, similarly to the deep Q learning extension of Q learning.
Abstract（参考訳）: 標準マルコフ決定プロセス(MDP)と強化学習アルゴリズムは、期待される利益に関してポリシーを最適化する。本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。このアルゴリズムは、値反復アルゴリズムの拡張と見なすことができる。また、Q学習の深層学習拡張と同様、提案アルゴリズムがニューラルネットワークの使用にどのように一般化できるかを示す。

関連論文リスト

Rank-One Modified Value Iteration [3.04988705714342]
マルコフ決定過程の計画と学習問題を解決するための新しいアルゴリズムを提案する。提案アルゴリズムは、計画と学習の両問題に対して、一階アルゴリズムとそれらの高速化バージョンを一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-05-03T14:06:50Z)
On Policy Evaluation Algorithms in Distributional Reinforcement Learning [0.0]
分散強化学習(DRL)による政策評価問題における未知の回帰分布を効率的に近似する新しいアルゴリズムのクラスを導入する。提案したアルゴリズムの単純な例では、ワッサーシュタインとコルモゴロフ-スミルノフ距離の両方において誤差境界を証明する。確率密度関数を持つ戻り分布の場合、アルゴリズムはこれらの密度を近似し、誤差境界は上限ノルム内で与えられる。
論文参考訳（メタデータ） (2024-07-19T10:06:01Z)
Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文参考訳（メタデータ） (2024-07-18T09:17:47Z)
From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。 QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文参考訳（メタデータ） (2023-11-18T21:00:14Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning Problems [0.7614628596146599]
古典的なSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。妥当な条件下では、アルゴリズムは十分に確立された理論的な要件に従ってステップ長を生成する。このアルゴリズムは,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成することができることを示す。
論文参考訳（メタデータ） (2023-05-17T06:22:11Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文参考訳（メタデータ） (2021-06-22T08:48:56Z)
A Probabilistically Motivated Learning Rate Adaptation for Stochastic Optimization [20.77923050735746]
一般的な一階法に対して,ガウス推論の観点からの確率的動機付けを提供する。この推論により、トレーニング中に自動的に適応できる無次元量に学習率を関連付けることができる。得られたメタアルゴリズムは、学習率を幅広い初期値にわたって頑健に適応させることが示される。
論文参考訳（メタデータ） (2021-02-22T10:26:31Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Towards Meta-Algorithm Selection [78.13985819417974]
インスタンス固有のアルゴリズム選択(AS)は、固定された候補集合からのアルゴリズムの自動選択を扱う。メタアルゴリズムの選択は、いくつかのケースで有益であることを示す。
論文参考訳（メタデータ） (2020-11-17T17:27:33Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。