論文の概要: Convergent Reinforcement Learning Algorithms for Stochastic Shortest Path Problem
- arxiv url: http://arxiv.org/abs/2508.13963v1
- Date: Tue, 19 Aug 2025 15:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.001736
- Title: Convergent Reinforcement Learning Algorithms for Stochastic Shortest Path Problem
- Title(参考訳): 確率的最短経路問題に対する収束強化学習アルゴリズム
- Authors: Soumyajit Guin, Shalabh Bhatnagar,
- Abstract要約: 本稿では,最短経路(SSP)問題に対する2つのアルゴリズムを提案する。
強化学習(RL)におけるSSP問題
すべてのアルゴリズムに対して近似がほぼ収束することを示す。
- 参考スコア(独自算出の注目度): 6.682382456607199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose two algorithms in the tabular setting and an algorithm for the function approximation setting for the Stochastic Shortest Path (SSP) problem. SSP problems form an important class of problems in Reinforcement Learning (RL), as other types of cost-criteria in RL can be formulated in the setting of SSP. We show asymptotic almost-sure convergence for all our algorithms. We observe superior performance of our tabular algorithms compared to other well-known convergent RL algorithms. We further observe reliable performance of our function approximation algorithm compared to other algorithms in the function approximation setting.
- Abstract(参考訳): 本稿では,確率的最短経路(SSP)問題に対する2つのアルゴリズムと関数近似設定法を提案する。
SSP問題は、強化学習(RL)において重要な問題のクラスを形成し、RLにおける他のコスト基準は、SSPの設定で定式化することができる。
すべてのアルゴリズムに対して漸近的ほぼ収束性を示す。
我々は、他のよく知られた収束RLアルゴリズムと比較して、表型アルゴリズムの優れた性能を観察する。
さらに、関数近似設定における他のアルゴリズムと比較して、関数近似アルゴリズムの信頼性の高い性能を観察する。
関連論文リスト
- A Robust Algorithm for Non-IID Machine Learning Problems with Convergence Analysis [2.4462606119036456]
本研究では,非滑らかな最適化,二次計画法,反復過程に基づく最小値問題の解法を改良した数値アルゴリズムを提案する。
このようなアルゴリズムは、ロバスト最適化や不均衡学習など、様々な分野に広く適用することができる。
論文 参考訳(メタデータ) (2025-07-01T14:41:59Z) - Quantum and classical correlations in shrinking algorithms for optimization [0.0]
最適化問題(COP)の解法として量子コンピューティングを用いる。
本研究では,再帰的に縮小することでCOPを解くアルゴリズムを拡張し,解析する。
量子近似最適化アルゴリズム(QAOA)と古典線形計画法(LP)と半定値計画法(SDP)の相関性を備えたアルゴリズムの性能を比較した。
論文 参考訳(メタデータ) (2024-04-26T08:29:04Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文 参考訳(メタデータ) (2022-10-13T20:16:19Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - A Heuristic Based on Randomized Greedy Algorithms for the Clustered
Shortest-Path Tree Problem [2.099922236065961]
本稿では, RGA とショート・パス・ツリー・アルゴリズム (SPTA) の主な特徴を組み合わせたクラスタ・ショート・パス・ツリー問題 (CluSPT) を扱うアルゴリズムを提案する。
提案アルゴリズムの性能を評価するため,ユークリッドベンチマークが選択される。
論文 参考訳(メタデータ) (2020-05-05T08:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。