論文の概要: Constructing Non-Markovian Decision Process via History Aggregator
- arxiv url: http://arxiv.org/abs/2506.24026v1
- Date: Mon, 30 Jun 2025 16:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.15702
- Title: Constructing Non-Markovian Decision Process via History Aggregator
- Title(参考訳): ヒストリアグリゲータによる非マルコフ決定過程の構築
- Authors: Yongyi Wang, Wenxin Li,
- Abstract要約: 我々はマルコフ決定過程(MDP)のカテゴリと非マルコフ決定過程(NMDP)のカテゴリを確立する。
我々はHistory Aggregator for State (HAS)を介して意思決定問題設定に非マルコビアン性を導入する。
本分析は,非マルコフ力学を広範囲に表す手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 0.9918339315515408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of algorithmic decision-making, non-Markovian dynamics manifest as a significant impediment, especially for paradigms such as Reinforcement Learning (RL), thereby exerting far-reaching consequences on the advancement and effectiveness of the associated systems. Nevertheless, the existing benchmarks are deficient in comprehensively assessing the capacity of decision algorithms to handle non-Markovian dynamics. To address this deficiency, we have devised a generalized methodology grounded in category theory. Notably, we established the category of Markov Decision Processes (MDP) and the category of non-Markovian Decision Processes (NMDP), and proved the equivalence relationship between them. This theoretical foundation provides a novel perspective for understanding and addressing non-Markovian dynamics. We further introduced non-Markovianity into decision-making problem settings via the History Aggregator for State (HAS). With HAS, we can precisely control the state dependency structure of decision-making problems in the time series. Our analysis demonstrates the effectiveness of our method in representing a broad range of non-Markovian dynamics. This approach facilitates a more rigorous and flexible evaluation of decision algorithms by testing them in problem settings where non-Markovian dynamics are explicitly constructed.
- Abstract(参考訳): アルゴリズムによる意思決定の分野において、非マルコフ力学は重要な障害として現れ、特に強化学習(RL)のようなパラダイムにおいて、関連するシステムの進歩と有効性に遠ざかる結果をもたらす。
それでも、既存のベンチマークは、非マルコフ力学を扱うための決定アルゴリズムの能力を包括的に評価できない。
この欠損に対処するため、私たちは圏論に基づく一般化された方法論を考案した。
特に,マルコフ決定過程 (MDP) のカテゴリと非マルコフ決定過程 (NMDP) のカテゴリを確立し,それらの等価性を証明した。
この理論の基礎は、非マルコフ力学の理解と解決のための新しい視点を提供する。
我々はさらに、History Aggregator for State (HAS)を介して、意思決定問題設定に非マルコビアン性を導入しました。
HASにより、時系列における意思決定問題の状態依存構造を正確に制御できる。
本分析は,非マルコフ力学を広範囲に表す手法の有効性を実証する。
このアプローチは、非マルコフ力学が明示的に構成される問題設定において、決定アルゴリズムをテストすることによって、より厳密で柔軟な評価を促進する。
関連論文リスト
- On the Foundation of Distributionally Robust Reinforcement Learning [19.621038847810198]
我々は、分布的堅牢性強化学習(DRRL)の理論的基礎に貢献する。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
このDRMDPフレームワーク内では、動的プログラミング原理(DPP)の存在の有無を調査する。
論文 参考訳(メタデータ) (2023-11-15T15:02:23Z) - $\lambda$-models: Effective Decision-Aware Reinforcement Learning with
Latent Models [11.826471893069805]
本稿では,意思決定支援学習モデルに必要な要素について述べる。
実験的な設計決定は、関連するアルゴリズムの性能向上に不可欠である。
我々は,MuZero損失関数の使用が環境に偏りがあることを示し,この偏りが現実的な結果をもたらすことを証明した。
論文 参考訳(メタデータ) (2023-06-30T02:06:45Z) - Inference and dynamic decision-making for deteriorating systems with
probabilistic dependencies through Bayesian networks and deep reinforcement
learning [0.0]
劣化する環境に露呈するエンジニアリングシステムに対して,不確実性を考慮した推論と意思決定のための効率的なアルゴリズムフレームワークを提案する。
政策最適化の観点では、深層分散型マルチエージェントアクター・クリティカル(DDMAC)強化学習アプローチを採用する。
その結果、DDMACポリシーは最先端のアプローチと比較して大きな利点をもたらすことが示された。
論文 参考訳(メタデータ) (2022-09-02T14:45:40Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。