論文の概要: Solving Constrained Stochastic Shortest Path Problems with Scalarisation
- arxiv url: http://arxiv.org/abs/2508.17446v1
- Date: Sun, 24 Aug 2025 16:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.530102
- Title: Solving Constrained Stochastic Shortest Path Problems with Scalarisation
- Title(参考訳): 拡張を伴う制約付き確率的最短経路問題の解法
- Authors: Johannes Schmalz, Felipe Trevizan,
- Abstract要約: 本稿では,効率的な探索アルゴリズムを用いて,制約のない最短経路問題(SSP)を解くCARLを紹介する。
我々の実験によると、CARLは既存のベンチマークの最先端よりも50%多くの問題を解決している。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained Stochastic Shortest Path Problems (CSSPs) model problems with probabilistic effects, where a primary cost is minimised subject to constraints over secondary costs, e.g., minimise time subject to monetary budget. Current heuristic search algorithms for CSSPs solve a sequence of increasingly larger CSSPs as linear programs until an optimal solution for the original CSSP is found. In this paper, we introduce a novel algorithm CARL, which solves a series of unconstrained Stochastic Shortest Path Problems (SSPs) with efficient heuristic search algorithms. These SSP subproblems are constructed with scalarisations that project the CSSP's vector of primary and secondary costs onto a scalar cost. CARL finds a maximising scalarisation using an optimisation algorithm similar to the subgradient method which, together with the solution to its associated SSP, yields a set of policies that are combined into an optimal policy for the CSSP. Our experiments show that CARL solves 50% more problems than the state-of-the-art on existing benchmarks.
- Abstract(参考訳): 確率的効果を伴う制約付き確率的短経路問題(CSSPs)モデルでは、一次コストは二次コストの制約により最小化される。
現在のCSSPのヒューリスティック検索アルゴリズムは、元のCSSPに最適な解決策が見つかるまで、線形プログラムとして、ますます大きなCSSPのシーケンスを解決している。
本稿では,効率的なヒューリスティック探索アルゴリズムを用いて,制約のないSSP(Stochastic Shortest Path Problems)の一連の問題を解くアルゴリズムCARLを提案する。
これらのSSPサブプロブレムは、CSSPの一次コストと二次コストのベクトルをスカラーコストに投影するスカラー化によって構成される。
CARLは、最適化アルゴリズムに類似した最適化アルゴリズムを用いて、SSPの解と相まって、CSSPの最適ポリシーに組み合わされる一連のポリシーを生成する。
我々の実験によると、CARLは既存のベンチマークの最先端よりも50%多くの問題を解決している。
関連論文リスト
- Iterative Interpolation Schedules for Quantum Approximate Optimization Algorithm [1.845978975395919]
本稿では,最適パラメータスケジュールの滑らかさを関数に基づいて表現することで,反復的手法を提案する。
提案手法は,現在の手法よりも少ない最適化ステップで性能の向上を実証する。
最大のLABSの場合、1000層を超えるスケジュールでほぼ最適のメリットを達成できます。
論文 参考訳(メタデータ) (2025-04-02T12:53:21Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Efficient Constraint Generation for Stochastic Shortest Path Problems [0.0]
最短経路問題(SSP)に対する制約生成の効率的なバージョンを提案する。
この手法により、アルゴリズムは準最適動作を無視し、コスト・ツー・ゴーの計算を回避できる。
実験の結果, CG-iLAO* は iLAO* の作用の最大57% を無視し, LRTDP や iLAO* よりも最大8倍, 3倍高速に問題を解くことがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:00:07Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms
for Stochastic Shortest Path [29.289190242826688]
本稿では,最短経路(SSP)モデルにおいて,後悔するアルゴリズムを開発するための汎用テンプレートを提案する。
まず、厳密な正のコストでモデルフリーとミニマックス最適の2つの新しいアルゴリズムを開発する。
どちらのアルゴリズムも高度にスパースな更新を認めており、既存のアルゴリズムよりも計算効率が良い。
論文 参考訳(メタデータ) (2021-06-15T19:15:17Z) - Two-Stage Stochastic Optimization via Primal-Dual Decomposition and Deep
Unrolling [86.85697555068168]
2段階のアルゴリズム最適化は、様々な工学や科学的応用において重要な役割を果たす。
特に長期変数と短期変数が制約の中で結合されている場合、アルゴリズムは効率的ではない。
PDD-SSCAが既存のソリューションよりも優れたパフォーマンスを達成できることを示します。
論文 参考訳(メタデータ) (2021-05-05T03:36:00Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。