論文の概要: Online Markov Decision Processes with Terminal Law Constraints
- arxiv url: http://arxiv.org/abs/2601.07492v1
- Date: Mon, 12 Jan 2026 12:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.38507
- Title: Online Markov Decision Processes with Terminal Law Constraints
- Title(参考訳): 終端法制約付きオンラインマルコフ決定プロセス
- Authors: Bianca Marin Moreno, Margaux Brégère, Pierre Gaillard, Nadia Oudjane,
- Abstract要約: 周期的フレームワークと呼ばれるリセットフリーのフレームワークを導入する。
目標は、累積損失を最小限に抑え、一定回数のステップ後にエージェントを初期状態分布に戻す周期的なポリシーを見つけることである。
2つのマルチエージェント設定で周期ポリシーを計算するための最初のアルゴリズムを示し、オーダー$tilde O(T3/4)$のサブ線形周期的後悔を実現する。
これは、M$均質なエージェントを$M > 1$と設定して、リセットなし学習に対する最初の漸近的でない保証を提供する。
- 参考スコア(独自算出の注目度): 10.878763806286157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional reinforcement learning usually assumes either episodic interactions with resets or continuous operation to minimize average or cumulative loss. While episodic settings have many theoretical results, resets are often unrealistic in practice. The infinite-horizon setting avoids this issue but lacks non-asymptotic guarantees in online scenarios with unknown dynamics. In this work, we move towards closing this gap by introducing a reset-free framework called the periodic framework, where the goal is to find periodic policies: policies that not only minimize cumulative loss but also return the agents to their initial state distribution after a fixed number of steps. We formalize the problem of finding optimal periodic policies and identify sufficient conditions under which it is well-defined for tabular Markov decision processes. To evaluate algorithms in this framework, we introduce the periodic regret, a measure that balances cumulative loss with the terminal law constraint. We then propose the first algorithms for computing periodic policies in two multi-agent settings and show they achieve sublinear periodic regret of order $\tilde O(T^{3/4})$. This provides the first non-asymptotic guarantees for reset-free learning in the setting of $M$ homogeneous agents, for $M > 1$.
- Abstract(参考訳): 伝統的な強化学習は、通常、平均または累積損失を最小限に抑えるために、リセットとエピソード的な相互作用または連続的な操作を仮定する。
エピソード的セッティングには多くの理論的結果があるが、実際はリセットは非現実的であることが多い。
無限水平設定はこの問題を回避しているが、未知のダイナミクスを持つオンラインシナリオでは漸近的でない保証がない。
本研究では,このギャップを解消するために,周期的フレームワークと呼ばれるリセットのないフレームワークを導入する。このフレームワークの目的は,累積損失を最小限に抑えるだけでなく,一定回数のステップ後にエージェントを初期状態分布に戻すという,定期的なポリシーを見つけることにある。
我々は、最適な周期ポリシーを見つけ、それが表型マルコフ決定プロセスに適切に定義された十分な条件を特定するという問題を定式化する。
この枠組みでアルゴリズムを評価するために,終端法制約と累積損失のバランスをとる尺度である周期的後悔を導入する。
次に、2つのマルチエージェント設定で周期ポリシーを計算するための最初のアルゴリズムを提案し、オーダー$\tilde O(T^{3/4})$のサブ線形周期的後悔を実現することを示す。
これは、M$均質なエージェントを$M > 1$と設定して、リセットなし学習に対する最初の漸近的でない保証を提供する。
関連論文リスト
- Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Optimal Rates in Continual Linear Regression via Increasing Regularization [39.30412893918111]
本研究では,ランダムなタスク順序付けの下での連続線形回帰について検討する。
この設定では、$k$学習後の最悪の損失は、$Omega (1/k)$の低いバウンドを認める。
明示的等方的$ell$正則化と有限ステップ予算による暗黙的正則化という2つのよく使われる正則化スキームを用いる。
論文 参考訳(メタデータ) (2025-06-06T19:51:14Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。