Fugu-MT 論文翻訳(概要): From Optimization to Control: Quasi Policy Iteration

論文の概要: From Optimization to Control: Quasi Policy Iteration

arxiv url: http://arxiv.org/abs/2311.11166v1
Date: Sat, 18 Nov 2023 21:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 17:48:18.604983
Title: From Optimization to Control: Quasi Policy Iteration
Title（参考訳）: 最適化から制御へ:準政策反復
Authors: Mohammad Amin Sharifi Kolarijani and Peyman Mohajerin Esfahani
Abstract要約: マルコフ決定過程(MDP)の最近の制御アルゴリズムは、よく確立された最適化アルゴリズムと暗黙の類似性を用いて設計されている。本稿では, この類似性を, 統一された解特徴量を持つ4つの問題クラスで明示する。我々は既存の文献で指摘されている同等の最適化と制御アルゴリズムを同定するが、そのほとんどは散在している。
参考スコア（独自算出の注目度）: 4.061135251278187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent control algorithms for Markov decision processes (MDPs) have been designed using an implicit analogy with well-established optimization algorithms. In this paper, we make this analogy explicit across four problem classes with a unified solution characterization. This novel framework, in turn, allows for a systematic transformation of algorithms from one domain to the other. In particular, we identify equivalent optimization and control algorithms that have already been pointed out in the existing literature, but mostly in a scattered way. With this unifying framework in mind, we then exploit two linear structural constraints specific to MDPs for approximating the Hessian in a second-order-type algorithm from optimization, namely, Anderson mixing. This leads to a novel first-order control algorithm that modifies the standard value iteration (VI) algorithm by incorporating two new directions and adaptive step sizes. While the proposed algorithm, coined as quasi-policy iteration, has the same computational complexity as VI, it interestingly exhibits an empirical convergence behavior similar to policy iteration with a very low sensitivity to the discount factor.
Abstract（参考訳）: マルコフ決定過程(MDP)の最近の制御アルゴリズムは、よく確立された最適化アルゴリズムと暗黙の類似性を用いて設計されている。本稿では, この類似性を, 統一解法により4つの問題クラスで明示する。この新しいフレームワークは、一方のドメインから他方へのアルゴリズムの体系的な変換を可能にする。特に,既存の文献では指摘されているが,ほとんどが散在的であった同等の最適化と制御アルゴリズムを同定する。この統一フレームワークを念頭に置いて、二階型アルゴリズムにおけるヘッシアンを近似するためにmdp特有の2つの線形構造制約、すなわちアンダーソン混合を利用する。これは、2つの新しい方向と適応的なステップサイズを組み込むことで、標準値反復(VI)アルゴリズムを変更する新しい一階制御アルゴリズムをもたらす。提案手法は準ポリシー反復と呼ばれるが,viと同じ計算複雑性を持つが,割引係数に対する感度が極めて低く,ポリシー反復と類似した経験的収束挙動を示すことが興味深い。

関連論文リスト

A Robust Algorithm for Non-IID Machine Learning Problems with Convergence Analysis [2.4462606119036456]
本研究では,非滑らかな最適化,二次計画法,反復過程に基づく最小値問題の解法を改良した数値アルゴリズムを提案する。このようなアルゴリズムは、ロバスト最適化や不均衡学習など、様々な分野に広く適用することができる。
論文参考訳（メタデータ） (2025-07-01T14:41:59Z)
Rank-One Modified Value Iteration [3.04988705714342]
マルコフ決定過程の計画と学習問題を解決するための新しいアルゴリズムを提案する。提案アルゴリズムは、計画と学習の両問題に対して、一階アルゴリズムとそれらの高速化バージョンを一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-05-03T14:06:50Z)
Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文参考訳（メタデータ） (2024-07-18T09:17:47Z)
On Linear Convergence of PI Consensus Algorithm under the Restricted Secant Inequality [5.35599092568615]
本稿では,ピアツーピアマルチエージェントネットワークにおける分散最適化問題について考察する。比例積分 (PI) 制御戦略を用いることで, 固定段数をもつ様々なアルゴリズムが開発されている。
論文参考訳（メタデータ） (2023-09-30T15:54:52Z)
Accelerating Cutting-Plane Algorithms via Reinforcement Learning Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文参考訳（メタデータ） (2023-07-17T20:11:56Z)
Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning Problems [0.7614628596146599]
古典的なSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。妥当な条件下では、アルゴリズムは十分に確立された理論的な要件に従ってステップ長を生成する。このアルゴリズムは,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成することができることを示す。
論文参考訳（メタデータ） (2023-05-17T06:22:11Z)
Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文参考訳（メタデータ） (2023-02-01T08:50:48Z)
Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文参考訳（メタデータ） (2022-10-13T20:16:19Z)
Adaptive First- and Second-Order Algorithms for Large-Scale Machine Learning [3.0204520109309843]
機械学習における連続最適化問題に対処する一階法と二階法を考察する。一階述語の場合、半決定論的から二次正規化への遷移の枠組みを提案する。本稿では,適応的なサンプリングと適応的なステップサイズを持つ新しい1次アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-11-29T18:10:00Z)
Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文参考訳（メタデータ） (2021-06-08T15:54:44Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文参考訳（メタデータ） (2020-07-01T18:43:32Z)
A Dynamical Systems Approach for Convergence of the Bayesian EM Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文参考訳（メタデータ） (2020-06-23T01:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。