論文の概要: Markov Decision Processes under External Temporal Processes
- arxiv url: http://arxiv.org/abs/2305.16056v3
- Date: Thu, 10 Oct 2024 11:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:15.506565
- Title: Markov Decision Processes under External Temporal Processes
- Title(参考訳): 外的時間過程におけるマルコフ決定過程
- Authors: Ranga Shaarad Ayyagari, Ambedkar Dukkipati,
- Abstract要約: 本研究では,マルコフ決定過程(MDP)を外的時間的プロセスの影響下で研究する。
本稿では,この問題を解決するためのポリシー反復アルゴリズムを提案し,その性能を理論的に解析する。
- 参考スコア(独自算出の注目度): 9.407514147408627
- License:
- Abstract: Most reinforcement learning algorithms treat the context under which they operate as a stationary, isolated, and undisturbed environment. However, in real world applications, environments constantly change due to a variety of external events. To address this problem, we study Markov Decision Processes (MDP) under the influence of an external temporal process. First, we formalize this notion and derive conditions under which the problem becomes tractable with suitable solutions. We propose a policy iteration algorithm to solve this problem and theoretically analyze its performance. Our analysis addresses the non-stationarity present in the MDP as a result of non-Markovian events, necessitating the formulation of policies that are contingent upon both the current state and a history of prior events. Additionally, we derive insights regarding the sample complexity of the algorithm and incorporate factors that define the exogenous temporal process into the established bounds. Finally, we perform experiments to demonstrate our findings within a traditional control environment.
- Abstract(参考訳): ほとんどの強化学習アルゴリズムは、定常的、孤立的、不安定な環境として機能する状況を扱う。
しかし、現実世界のアプリケーションでは、様々な外部イベントによって環境は常に変化します。
この問題に対処するために,マルコフ決定過程(MDP)を外的時間的プロセスの影響下で研究する。
まず、この概念を定式化し、適切な解で問題を抽出できる条件を導出する。
本稿では,この問題を解決するためのポリシー反復アルゴリズムを提案し,その性能を理論的に解析する。
我々の分析は、マルコフ的でない事象の結果として、MDPに存在する非定常性に対処し、現在の状態と過去の出来事の歴史の両方に付随する政策の定式化を必要とする。
さらに、アルゴリズムのサンプル複雑性に関する洞察を導き、外因性時間過程を定義する因子を確立された境界に組み込む。
最後に,従来の制御環境における知見の実証実験を行った。
関連論文リスト
- Decoupled Marked Temporal Point Process using Neural Ordinary Differential Equations [14.828081841581296]
MTPP(マークド・テンポラル・ポイント・プロセス)は、イベント・タイム・データの集合である。
近年の研究では、ディープニューラルネットワークを使用してイベントの複雑な時間的依存関係をキャプチャしている。
本稿では,プロセスの特性を異なる事象からの進化的影響の集合に分解する脱結合型MTPPフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-10T10:15:32Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Markov Decision Processes with Noisy State Observation [0.0]
本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。
我々は、真の状態を誤認する確率を捉える混乱行列を用いて、この不確実性をモデル化することに集中する。
そこで本研究では,本研究で提案する2つの提案手法について述べる。
論文 参考訳(メタデータ) (2023-12-13T21:50:38Z) - Anomaly Detection via Learning-Based Sequential Controlled Sensing [25.282033825977827]
本稿では,学習に基づく制御センシングによるバイナリプロセス間の異常検出の問題に対処する。
異常を識別するために、意思決定エージェントは、各時点でプロセスのサブセットを観察することができる。
我々の目標は、どの過程を観察するかを動的に決定するシーケンシャルな選択ポリシーを設計することである。
論文 参考訳(メタデータ) (2023-11-30T07:49:33Z) - Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes [8.710154439846816]
エージェントが離散的な事象を特徴とする環境に直面する逐次的意思決定問題を考える。
この問題は、ソーシャルメディア、金融、健康情報学において至るところに存在しているが、強化学習における従来の研究によって研究されることは稀である。
本稿では,エージェントの動作と観察が連続的に発生する非同期離散事象であるモデルに基づく強化学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-29T11:53:40Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。