論文の概要: A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications
- arxiv url: http://arxiv.org/abs/2509.18714v1
- Date: Tue, 23 Sep 2025 07:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.739105
- Title: A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications
- Title(参考訳): マルコフ決定過程間の状態類似性の一般化バイシミュレート計量:理論的命題から応用まで
- Authors: Zhenyu Tao, Wei Xu, Xiaohu You,
- Abstract要約: Bisimulation metric (BSM) はマルコフ決定過程(MDP)における状態類似性を計算する強力なツールである。
本研究では,2組のMDP間での一般化バイシミュレート(GBSM)を正式に確立する。
- 参考スコア(独自算出の注目度): 22.475783775037915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The bisimulation metric (BSM) is a powerful tool for computing state similarities within a Markov decision process (MDP), revealing that states closer in BSM have more similar optimal value functions. While BSM has been successfully utilized in reinforcement learning (RL) for tasks like state representation learning and policy exploration, its application to multiple-MDP scenarios, such as policy transfer, remains challenging. Prior work has attempted to generalize BSM to pairs of MDPs, but a lack of rigorous analysis of its mathematical properties has limited further theoretical progress. In this work, we formally establish a generalized bisimulation metric (GBSM) between pairs of MDPs, which is rigorously proven with the three fundamental properties: GBSM symmetry, inter-MDP triangle inequality, and the distance bound on identical state spaces. Leveraging these properties, we theoretically analyse policy transfer, state aggregation, and sampling-based estimation in MDPs, obtaining explicit bounds that are strictly tighter than those derived from the standard BSM. Additionally, GBSM provides a closed-form sample complexity for estimation, improving upon existing asymptotic results based on BSM. Numerical results validate our theoretical findings and demonstrate the effectiveness of GBSM in multi-MDP scenarios.
- Abstract(参考訳): バイシミュレーション・メトリック(BSM)はマルコフ決定過程(MDP)における状態類似性を計算する強力なツールであり、BSMに近い状態はよりよく似た値関数を持つことを示した。
BSMは、状態表現学習や政策探索といったタスクに強化学習(RL)でうまく活用されているが、政策伝達のような複数のMDPシナリオへの応用は依然として困難である。
これまでの研究は、BSMを一連のMDPに一般化しようと試みてきたが、その数学的性質に関する厳密な分析の欠如により、さらなる理論的進歩は制限された。
本研究は, GBSM対称性, MDP間の三角形不等式, 同一状態空間上の距離の3つの基本的性質を厳密に証明した, 対のMDP間の一般化二次元距離(GBSM)を正式に確立する。
これらの特性を利用して、理論上は政策伝達、状態集約、サンプリングに基づくMDPの推定を解析し、標準BSMより厳密な明示的境界を求める。
さらに、GBSMは、BSMに基づく既存の漸近的な結果を改善するために、予測のためのクローズドフォームサンプルの複雑さを提供する。
数値計算により, GBSM の有効性を検証し, GBSM の有効性を検証した。
関連論文リスト
- NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Imprecise Probabilities Meet Partial Observability: Game Semantics for Robust POMDPs [10.944237572149893]
ロバストPOMDP(RPOMDP)は不確実性集合と呼ばれる不正確な確率を定義する。
不確実性集合に対する異なる仮定が最適ポリシーや値に影響を与えることを示す。
我々は,既存のRPOMDP文献をセマンティクスを用いて分類し,これらの既存作品が動作している不確実性を想定した。
論文 参考訳(メタデータ) (2024-05-08T10:22:49Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs [3.7186122930334724]
本稿では, PPO, Twin Delayed Deep Deterministic Policy Gradient (TD3) と Soft Actor-Critic (SAC) の3つのDRLアルゴリズムについて考察する。
SACとTD3は一般的に、MPPとして表現できる幅広いタスクでPPOを上回っている。
我々は、TD3とSACに複数ステップのブートストラップを組み込むことで、POMDP設定におけるロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-12T03:12:04Z) - Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity [2.685668802278156]
状態と行動の量子化による標準ボレル MDP のQ-ラーニングが限界に収束することを示す。
本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
論文 参考訳(メタデータ) (2021-11-12T15:47:10Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。