論文の概要: Markov Decision Processes under External Temporal Processes
- arxiv url: http://arxiv.org/abs/2305.16056v4
- Date: Wed, 24 Sep 2025 10:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.421432
- Title: Markov Decision Processes under External Temporal Processes
- Title(参考訳): 外的時間過程におけるマルコフ決定過程
- Authors: Ranga Shaarad Ayyagari, Revanth Raj Eega, Ambedkar Dukkipati,
- Abstract要約: 本研究では,外部時間過程の影響下でマルコフ決定過程について検討する。
本稿では,この問題に対処するためのポリシー反復アルゴリズムの提案と理論的解析を行う。
トラクタブルポリシと値関数を考慮した近似誤差によって決定される状態空間の領域におけるポリシー改善の保証を提供する。
- 参考スコア(独自算出の注目度): 8.679020335206754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning Algorithms are predominantly developed for stationary environments, and the limited literature that considers nonstationary environments often involves specific assumptions about changes that can occur in transition probability matrices and reward functions. Considering that real-world applications involve environments that continuously evolve due to various external events, and humans make decisions by discerning patterns in historical events, this study investigates Markov Decision Processes under the influence of an external temporal process. We establish the conditions under which the problem becomes tractable, allowing it to be addressed by considering only a finite history of events, based on the properties of the perturbations introduced by the exogenous process. We propose and theoretically analyze a policy iteration algorithm to tackle this problem, which learns policies contingent upon the current state of the environment, as well as a finite history of prior events of the exogenous process. We show that such an algorithm is not guaranteed to converge. However, we provide a guarantee for policy improvement in regions of the state space determined by the approximation error induced by considering tractable policies and value functions. We also establish the sample complexity of least-squares policy evaluation and policy improvement algorithms that consider approximations due to the incorporation of only a finite history of temporal events. While our results are applicable to general discrete-time processes satisfying certain conditions on the rate of decay of the influence of their events, we further analyze the case of discrete-time Hawkes processes with Gaussian marks. We performed experiments to demonstrate our findings for policy evaluation and deployment in traditional control environments.
- Abstract(参考訳): 強化学習アルゴリズムは主に定常環境向けに開発されており、非定常環境を考慮した限られた文献では、遷移確率行列や報酬関数で起こりうる変化に関する特定の仮定が伴うことが多い。
実世界の応用には、様々な外的事象によって連続的に進化する環境があり、人類は歴史的事象のパターンを識別して決定を行う。
我々は,外因性過程によって引き起こされる摂動の性質に基づいて,事象の有限履歴のみを考慮し,その問題に対処できる条件を確立する。
本研究では,環境の現況に係わる政策を学習する政策反復アルゴリズムを提案し,理論的に解析すると共に,外因性プロセスの先行事象の有限履歴を考察する。
このようなアルゴリズムが収束することが保証されていないことを示す。
しかし,提案手法は,トラクタブルポリシや値関数を考慮した近似誤差によって決定される状態空間の領域におけるポリシー改善の保証を提供する。
また、時間事象の有限履歴のみを組み込んだため近似を考慮した最小二乗政策評価と政策改善アルゴリズムのサンプル複雑性も確立した。
この結果は、事象の影響の減衰率に関する一定の条件を満たす一般的な離散時間過程に適用できるが、ガウスマークを用いた離散時間ホークス過程のケースをさらに解析する。
従来の制御環境における政策評価と展開の成果を実証するために実験を行った。
関連論文リスト
- Algorithmic Fairness: A Runtime Perspective [6.409194734638881]
本稿では、フェアネスをランタイムプロパティとして分析するためのフレームワークを提案する。
本研究では, 不正な結果やコインバイアスに表される公正性を監視し, 強制することの問題点について検討する。
論文 参考訳(メタデータ) (2025-07-28T11:04:17Z) - Policy Testing in Markov Decision Processes [48.642181362172906]
本研究では,不確実性条件下での割引決定プロセス(MDP)におけるポリシーテスト問題について検討する。
目的は、与えられたポリシーの値が数値しきい値を超えるかどうかを決定することである。
論文 参考訳(メタデータ) (2025-05-21T10:13:54Z) - Decoupled Marked Temporal Point Process using Neural Ordinary Differential Equations [14.828081841581296]
MTPP(マークド・テンポラル・ポイント・プロセス)は、イベント・タイム・データの集合である。
近年の研究では、ディープニューラルネットワークを使用してイベントの複雑な時間的依存関係をキャプチャしている。
本稿では,プロセスの特性を異なる事象からの進化的影響の集合に分解する脱結合型MTPPフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-10T10:15:32Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Markov Decision Processes with Noisy State Observation [0.0]
本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。
我々は、真の状態を誤認する確率を捉える混乱行列を用いて、この不確実性をモデル化することに集中する。
そこで本研究では,本研究で提案する2つの提案手法について述べる。
論文 参考訳(メタデータ) (2023-12-13T21:50:38Z) - Anomaly Detection via Learning-Based Sequential Controlled Sensing [25.282033825977827]
本稿では,学習に基づく制御センシングによるバイナリプロセス間の異常検出の問題に対処する。
異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。
我々の目標は、どの過程を観察するかを動的に決定するシーケンシャルな選択ポリシーを設計することである。
論文 参考訳(メタデータ) (2023-11-30T07:49:33Z) - Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes [8.710154439846816]
エージェントが離散的な事象を特徴とする環境に直面する逐次的意思決定問題を考える。
この問題は、ソーシャルメディア、金融、健康情報学において至るところに存在しているが、強化学習における従来の研究によって研究されることは稀である。
本稿では,エージェントの動作と観察が連続的に発生する非同期離散事象であるモデルに基づく強化学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-29T11:53:40Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。