論文の概要: Multiple Mean-Payoff Optimization under Local Stability Constraints
- arxiv url: http://arxiv.org/abs/2412.13369v1
- Date: Tue, 17 Dec 2024 22:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:35.752047
- Title: Multiple Mean-Payoff Optimization under Local Stability Constraints
- Title(参考訳): 局所安定制約下における複数平均ペイオフ最適化
- Authors: David Klaška, Antonín Kučera, Vojtěch Kůr, Vít Musil, Vojtěch Řehák,
- Abstract要約: トランジション毎の平均ペイオフ(平均ペイオフ)は、個々のシステムの性能と信頼性を規定する主要なツールである。
いくつかの平均的なペイオフを同時に最適化するコントローラ(戦略)を構築するという問題は、ゲーム理論モデルやゲーム理論モデルに対して深く研究されている。
本稿では,マルコフ決定プロセスに適用可能な,この問題に対する最初の効率的かつスケーラブルなソリューションの設計と評価を行う。
- 参考スコア(独自算出の注目度): 2.95348334737984
- License:
- Abstract: The long-run average payoff per transition (mean payoff) is the main tool for specifying the performance and dependability properties of discrete systems. The problem of constructing a controller (strategy) simultaneously optimizing several mean payoffs has been deeply studied for stochastic and game-theoretic models. One common issue of the constructed controllers is the instability of the mean payoffs, measured by the deviations of the average rewards per transition computed in a finite "window" sliding along a run. Unfortunately, the problem of simultaneously optimizing the mean payoffs under local stability constraints is computationally hard, and the existing works do not provide a practically usable algorithm even for non-stochastic models such as two-player games. In this paper, we design and evaluate the first efficient and scalable solution to this problem applicable to Markov decision processes.
- Abstract(参考訳): トランジション毎の平均ペイオフ(平均ペイオフ)は、個々のシステムの性能と信頼性を規定する主要なツールである。
いくつかの平均的なペイオフを同時に最適化するコントローラ(ストラテジー)を構築するという問題は、確率的およびゲーム理論的なモデルに対して深く研究されている。
構成されたコントローラの一般的な問題は平均的なペイオフの不安定性であり、ランに沿ってスライドする有限の「窓」で計算された遷移当たりの平均報酬の偏差によって測定される。
残念なことに、局所的な安定性制約の下で平均的なペイオフを同時に最適化する問題は計算的に困難であり、既存の研究は2人のプレイヤーゲームのような非確率モデルに対しても実用的なアルゴリズムを提供していない。
本稿では,マルコフ決定プロセスに適用可能な,この問題に対する最初の効率的かつスケーラブルなソリューションの設計と評価を行う。
関連論文リスト
- DCatalyst: A Unified Accelerated Framework for Decentralized Optimization [10.925931212031692]
中央サーバを持たないグラフとしてモデル化されたエージェントネットワーク上での分散最適化について検討する。
我々はNesterovアクセラレーションを分散最適化アルゴリズムに統合した統合ブラックボックスフレームワークDCatalystを紹介する。
論文 参考訳(メタデータ) (2025-01-30T03:32:59Z) - Bayesian Optimization for Non-Convex Two-Stage Stochastic Optimization Problems [2.9016548477524156]
知識段階に基づく獲得関数を定式化し、最初の変数を協調的に最適化し、一貫性の保証を確立し、近似を与える。
2つの変数型間で交互にフォーカスを減らして定式化する方法と同等な経験結果を示す。
論文 参考訳(メタデータ) (2024-08-30T16:26:31Z) - Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization [9.449153668916098]
各ラウンド$t$において、プレイヤーが2次的打撃コストと2次攻撃コストに応じてアクション$x_tをプレイし、アクションを切り替えるための2乗$ell$-normコストを加算する、スムーズなオンライン最適化(SOQO)問題について検討する。
この問題クラスは、スマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインと強いつながりを持っています。
本稿では, 最適に近い性能を同時に達成しつつ, 強健な対角性能を得るベスト・オブ・ザ・ワールドス・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T22:59:23Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Gradient-Free Methods for Deterministic and Stochastic Nonsmooth
Nonconvex Optimization [94.19177623349947]
非滑らかな非最適化問題は、機械学習とビジネス製造に現れる。
2つのコア課題は、有限収束を保証する効率的な方法の開発を妨げる。
GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。
論文 参考訳(メタデータ) (2022-09-12T06:53:24Z) - T*$\varepsilon$ -- Bounded-Suboptimal Efficient Motion Planning for
Minimum-Time Planar Curvature-Constrained Systems [7.277760003553328]
本研究では,障害物の存在下での曲率制約系の衝突のない経路を見つけることの問題点を考察する。
有界-準最適解を求めることにより、使用した時間-最適遷移の数を劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:38:36Z) - A unified algorithm framework for mean-variance optimization in
discounted Markov decision processes [7.510742715895749]
本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。
本稿では,処理不能なMPPを標準形式で再定義された報酬関数を持つ標準形式に変換するための擬似平均を導入する。
平均分散最適化のための2レベル最適化構造を持つ統合アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T02:19:56Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Distributionally Robust Bayesian Optimization [121.71766171427433]
そこで本研究では,ゼロ次雑音最適化のための分散ロバストなベイズ最適化アルゴリズム(DRBO)を提案する。
提案アルゴリズムは, 種々の設定において, 線形に頑健な後悔を確実に得る。
提案手法は, 実世界のベンチマークと実世界のベンチマークの両方において, 頑健な性能を示す。
論文 参考訳(メタデータ) (2020-02-20T22:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。