論文の概要: Online Learning in MDPs with Partially Adversarial Transitions and Losses
- arxiv url: http://arxiv.org/abs/2602.09474v1
- Date: Tue, 10 Feb 2026 07:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.422239
- Title: Online Learning in MDPs with Partially Adversarial Transitions and Losses
- Title(参考訳): 部分的に相反する遷移と損失を伴うMDPにおけるオンライン学習
- Authors: Ofir Schlisselberg, Tal Lancewicki, Yishay Mansour,
- Abstract要約: 遷移関数がほとんどのステップであるが,1エピソードあたり$$$の固定サブセットで逆向きに振る舞うことができるMDPの強化学習について検討した。
両エピソードの相違が相変わらず安定なエンプレクショナル・コンディショニング・コンディショナー(Emphconditioned occupancy measures)を導入する。
我々は,全情報フィードバックと盗賊フィードバックの両面から,敵対的MDPの反抗的設定(=H-1$)の後悔を特徴づける。
- 参考スコア(独自算出の注目度): 42.59565593884281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning in MDPs whose transition function is stochastic at most steps but may behave adversarially at a fixed subset of $Λ$ steps per episode. This model captures environments that are stable except at a few vulnerable points. We introduce \emph{conditioned occupancy measures}, which remain stable across episodes even with adversarial transitions, and use them to design two algorithms. The first handles arbitrary adversarial steps and achieves regret $\tilde{O}(H S^Λ\sqrt{K S A^{Λ+1}})$, where $K$ is the number of episodes, $S$ is the number of state, $A$ is the number of actions and $H$ is the episode's horizon. The second, assuming the adversarial steps are consecutive, improves the dependence on $S$ to $\tilde{O}(H\sqrt{K S^{3} A^{Λ+1}})$. We further give a $K^{2/3}$-regret reduction that removes the need to know which steps are the $Λ$ adversarial steps. We also characterize the regret of adversarial MDPs in the \emph{fully adversarial} setting ($Λ=H-1$) both for full-information and bandit feedback, and provide almost matching upper and lower bounds (slightly strengthen existing lower bounds, and clarify how different feedback structures affect the hardness of learning).
- Abstract(参考訳): 我々は,ほとんどのステップにおいて遷移関数が確率的であるが,1エピソードあたり$$$の固定サブセットで逆向きに振る舞うMDPの強化学習について検討した。
このモデルは、いくつかの脆弱な点を除いて安定な環境をキャプチャする。
本稿では, 対向的遷移であっても, エピソード間で安定に保たれる「emph{conditioned occupancy measures」を導入し, 2つのアルゴリズムを設計する。
ここで$K$はエピソードの数、$S$は状態の数、$A$はアクションの数、$H$はエピソードの水平線である。
2つ目は、逆ステップが連続であると仮定し、$S$ から $\tilde{O}(H\sqrt{K S^{3} A^{n+1}})$ への依存を改善することである。
さらに、$K^{2/3}$-regret還元を与え、この還元により、どちらのステップが$=逆ステップであるかを知る必要がなくなる。
また,全情報フィードバックと包括的フィードバックの両面において,emph{fully adversarial} 設定における敵対的 MDP の後悔(=H-1$)を特徴付けるとともに,ほぼ一致する上界と下界(既存の下界をわずかに強化し,異なるフィードバック構造が学習の難しさにどのように影響するかを明らかにする。
関連論文リスト
- Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。
PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。
我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-07-15T20:19:32Z) - Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback [49.84060509296641]
オンライン有限水平マルコフ決定過程を逆向きに変化した損失と総括的帯域幅フィードバック(フルバンド幅)を用いて研究する。
この種のフィードバックの下では、エージェントは、軌跡内の各中間段階における個々の損失よりも、軌跡全体に生じる総損失のみを観察する。
この設定のための最初のポリシー最適化アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2025-02-06T12:03:24Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Decentralized Cooperative Reinforcement Learning with Hierarchical
Information Structure [14.919120396838208]
本稿では,2エージェントマルチアームバンド (MABs) とマルコフ決定プロセス (MDPs) を,アプリケーションに生じる階層的情報構造を用いて検討する。
それぞれのステップにおいて、"リーダー"はまず彼女の行動を選択し、その後に"フォロワー"はリーダーの行動を観察して自分の行動を決定する。
MDP設定の場合、$widetildemathcalO(sqrtH7S2ABT)$ regret, where $H$ is the number of episode, $S$ is the number of states。
論文 参考訳(メタデータ) (2021-11-01T09:18:07Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。