論文の概要: An exact solution in Markov decision process with multiplicative rewards
as a general framework
- arxiv url: http://arxiv.org/abs/2012.08074v1
- Date: Tue, 15 Dec 2020 03:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:07:31.865670
- Title: An exact solution in Markov decision process with multiplicative rewards
as a general framework
- Title(参考訳): 乗法報酬を一般化したマルコフ決定過程における厳密解
- Authors: Yuan Yao and Xiaolin Sun
- Abstract要約: 我々は、有限な地平線と連続状態と作用空間を持つマルコフ決定過程の完全可解な枠組みを開発する。
乗法的スキームは任意の精度で加法的スキームをカバーする一般的な枠組みであることを示す。
- 参考スコア(独自算出の注目度): 6.378819974860223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an exactly solvable framework of Markov decision process with a
finite horizon, and continuous state and action spaces. We first review the
exact solution of conventional linear quadratic regulation with a linear
transition and a Gaussian noise, whose optimal policy does not depend on the
Gaussian noise, which is an undesired feature in the presence of significant
noises. It motivates us to investigate exact solutions which depend on noise.
To do so, we generalize the reward accumulation to be a general binary
commutative and associative operation. By a new multiplicative accumulation, we
obtain an exact solution of optimization assuming linear transitions with a
Gaussian noise and the optimal policy is noise dependent in contrast to the
additive accumulation. Furthermore, we also show that the multiplicative scheme
is a general framework that covers the additive one with an arbitrary
precision, which is a model-independent principle.
- Abstract(参考訳): 我々は、有限な地平線と連続状態と作用空間を持つマルコフ決定過程の完全可解な枠組みを開発する。
まず,線形遷移とガウス雑音を伴う従来の線形二次制御の厳密な解を考察し,その最適方針はガウス雑音に依存しないが,重要な雑音が存在する場合には望ましくない特徴である。
ノイズに依存する正確な解を調査する動機となる。
そのため、報酬の蓄積を一般的な二元可換および連想演算として一般化する。
新しい乗法累積法により、ガウス雑音を伴う線形遷移を仮定した最適化の厳密な解を求め、その最適方針は加法累積とは対照的にノイズに依存する。
さらに、乗法的スキームは、モデルに依存しない原理である任意の精度で加法的スキームをカバーする一般的な枠組みであることを示す。
関連論文リスト
- Fair Resource Allocation in Weakly Coupled Markov Decision Processes [3.824858358548714]
マルコフ決定過程の弱結合としてモデル化された逐次的意思決定環境における資源配分について考察する。
我々は、従来の実用的(total-sum)目的ではなく、一般化されたジーニ関数を用いた公正性の定義を採用する。
論文 参考訳(メタデータ) (2024-11-14T20:40:55Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and
Optimal Algorithms [64.10576998630981]
最適なヘッセン依存型サンプルの複雑さを, 初めて厳密に評価した。
ヘシアン非依存のアルゴリズムは、すべてのヘシアンインスタンスに対して最適なサンプル複雑さを普遍的に達成する。
本アルゴリズムにより得られたサンプルの最適複雑さは,重み付き雑音分布においても有効である。
論文 参考訳(メタデータ) (2023-06-21T17:03:22Z) - First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。
提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。
凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文 参考訳(メタデータ) (2023-05-25T11:11:31Z) - Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms [8.669461942767098]
モーメントに基づく1次最適化アルゴリズムについて検討し, 繰り返しが付加的な白色雑音を受ける場合について検討した。
強い凸2次問題に対しては、雑音増幅の定量化のために最適化変数における誤差の定常分散を用いる。
雑音増幅と定位時間のバランスをとるアルゴリズムの2つのパラメータ化ファミリを導入する。
論文 参考訳(メタデータ) (2022-09-24T04:26:30Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Sparse recovery by reduced variance stochastic approximation [5.672132510411465]
雑音観測によるスパース信号回復問題に対する反復2次最適化ルーチンの適用について論じる。
本稿では,Median-of-Meansのような手法を用いて,対応するソリューションの信頼性を向上する方法について述べる。
論文 参考訳(メタデータ) (2020-06-11T12:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。