Fugu-MT 論文翻訳(概要): Self-Triggered Markov Decision Processes

論文の概要: Self-Triggered Markov Decision Processes

arxiv url: http://arxiv.org/abs/2102.08571v1
Date: Wed, 17 Feb 2021 04:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-18 14:39:02.304633
Title: Self-Triggered Markov Decision Processes
Title（参考訳）: 自己トリガーマルコフ決定過程
Authors: Yunhan Huang and Quanyan Zhu
Abstract要約: 我々は、自己トリガー制御の概念がより汎用的なMDPモデルに拡張される自己トリガー戦略でマルコフ決定プロセス(MDP)を研究します。制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。
参考スコア（独自算出の注目度）: 29.440329760873087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study Markov Decision Processes (MDPs) with self-triggered strategies, where the idea of self-triggered control is extended to more generic MDP models. This extension broadens the application of self-triggering policies to a broader range of systems. We study the co-design problems of the control policy and the triggering policy to optimize two pre-specified cost criteria. The first cost criterion is introduced by incorporating a pre-specified update penalty into the traditional MDP cost criteria to reduce the use of communication resources. Under this criteria, a novel dynamic programming (DP) equation called DP equation with optimized lookahead to proposed to solve for the self-triggering policy under this criteria. The second self-triggering policy is to maximize the triggering time while still guaranteeing a pre-specified level of sub-optimality. Theoretical underpinnings are established for the computation and implementation of both policies. Through a gridworld numerical example, we illustrate the two policies' effectiveness in reducing sources consumption and demonstrate the trade-offs between resource consumption and system performance.
Abstract（参考訳）: 本稿では、自己トリガー制御の概念をより汎用的なMDPモデルに拡張する自己トリガー戦略によるマルコフ決定プロセス(MDP)について検討する。この拡張は、より広い範囲のシステムに自己引き起こすポリシーの適用を広げる。制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。最初のコスト基準は、通信リソースの使用を減らすために、所定の更新ペナルティを従来のmdpコスト基準に組み込むことによって導入された。この基準の下で、最適化されたルックヘッドを持つDP方程式と呼ばれる新しい動的プログラミング(DP)方程式は、この基準の下で自己トリガ政策の解決を提案した。第2のセルフトリガー政策は、事前定義されたサブ最適化レベルを保証しながらトリガー時間を最大化することである。両方の政策の計算と実装のための理論的基盤が確立されている。グリッドワールドの数値例を通して,資源消費削減における2つの政策の有効性を示し,資源消費とシステム性能のトレードオフを示す。

関連論文リスト

Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文参考訳（メタデータ） (2024-11-27T18:57:03Z)
Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文参考訳（メタデータ） (2024-10-19T17:00:23Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文参考訳（メタデータ） (2022-04-19T15:55:47Z)
Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。規則化手法は学習方針と行動方針の分岐を減少させる。本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文参考訳（メタデータ） (2022-02-13T07:38:36Z)
Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-28T07:18:29Z)
Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文参考訳（メタデータ） (2021-09-09T07:52:35Z)
Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T09:45:15Z)
OffCon$^3$: What is state of the art anyway? [20.59974596074688]
モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。 TD3 は DPG から派生したもので、決定論的ポリシーを用いて値関数に沿ってポリシー上昇を行う。 OffCon$3$は、両方のアルゴリズムの最先端バージョンを特徴とするコードベースである。
論文参考訳（メタデータ） (2021-01-27T11:45:08Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。