論文の概要: Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments
- arxiv url: http://arxiv.org/abs/2603.06946v1
- Date: Fri, 06 Mar 2026 23:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.484769
- Title: Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments
- Title(参考訳): 連立動環境における連立MDPと強化学習
- Authors: Ege C. Kaya, Mahsa Ghasemi, Abolfazl Hashemi,
- Abstract要約: 本研究では,多行動生成インタフェースを用いた結合力学について検討した。
我々は、要求された状態における即時的な反実的な結果に、アクション間の依存が限定される一段階のカップリング体制を採用し、形式化する。
- 参考スコア(独自算出の注目度): 13.342794291622562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many distributional quantities in reinforcement learning are intrinsically joint across actions, including distributions of gaps and probabilities of superiority. However, the classical Markov decision process (MDP) formalism specifies only marginal laws and leaves the joint law of counterfactual one-step outcomes across multiple possible actions at a state unspecified. We study coupled-dynamics environments with a multi-action generative interface which can sample counterfactual one-step outcomes for multiple actions under shared exogenous randomness. We propose joint MDPs (JMDPs) as a formalism for such environments by augmenting an MDP with a multi-action sample transition model which specifies a coupling of one-step counterfactual outcomes, while preserving standard MDP interaction as marginal observations. We adopt and formalize a one-step coupling regime where dependence across actions is confined to immediate counterfactual outcomes at the queried state. In this regime, we derive Bellman operators for $n$th-order return moments, providing dynamic programming and incremental algorithms with convergence guarantees.
- Abstract(参考訳): 強化学習における多くの分布量は、本質的には、ギャップの分布や優越性の確率を含む行動間で結合している。
しかし、古典的マルコフ決定過程(MDP)の定式化は限界法則のみを規定し、非特定状態における複数の可能な行動にまたがる対実的な一段階の結果の合同法則を残している。
本研究では,多行動生成インタフェースを用いた結合力学環境について検討し,共有外因性ランダム性の下での複数行動に対する対実的な一段階の結果をサンプリングする。
我々は,MDPと1段階の対実的な結果のカップリングを規定する多アクションサンプル遷移モデルを組み合わせることで,MDPの標準的相互作用を限界観測として保ちながら,このような環境の形式としてジョイントMDP(JMDP)を提案する。
我々は、要求された状態における即時的な反実的な結果に、アクション間の依存が限定される一段階のカップリング体制を採用し、形式化する。
この方法では、Bellman演算子を$n$th-orderの戻りモーメントに対して導出し、動的プログラミングと収束保証付きインクリメンタルアルゴリズムを提供する。
関連論文リスト
- Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Centralized Adaptive Sampling for Reliable Co-Training of Independent Multi-Agent Policies [3.5253513747455303]
独立政策勾配アルゴリズムは、協調型・非競合型ゲームにおけるマルチエージェント強化学習(MARL)に広く用いられている。
これらは、各エージェントのポリシー勾配が準最適均衡に向かっているときに、亜最適収束することが知られている。
共同サンプリング誤差を低減するための適応的な動作サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-01T20:07:25Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。