論文の概要: Learn to Change the World: Multi-level Reinforcement Learning with Model-Changing Actions
- arxiv url: http://arxiv.org/abs/2510.15056v1
- Date: Thu, 16 Oct 2025 18:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.346128
- Title: Learn to Change the World: Multi-level Reinforcement Learning with Model-Changing Actions
- Title(参考訳): 世界を変えることを学ぶ: モデル交換行動による多段階強化学習
- Authors: Ziqing Lu, Babak Hassibi, Lifeng Lai, Weiyu Xu,
- Abstract要約: 基盤となる遷移プロセスの再構成は、エージェントの報酬を増加させる可能性がある。
多層時間変化マルコフ決定過程(MCTVMDP)を紹介する。
エージェントの目的は2つの部分から構成される: 上位のMDPにおける設定ポリシーを最適化し、下位のMDPにおけるプリミティブアクションポリシーを最適化し、期待される長期的な報酬を共同で改善する。
- 参考スコア(独自算出の注目度): 32.35396854045405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning usually assumes a given or sometimes even fixed environment in which an agent seeks an optimal policy to maximize its long-term discounted reward. In contrast, we consider agents that are not limited to passive adaptations: they instead have model-changing actions that actively modify the RL model of world dynamics itself. Reconfiguring the underlying transition processes can potentially increase the agents' rewards. Motivated by this setting, we introduce the multi-layer configurable time-varying Markov decision process (MCTVMDP). In an MCTVMDP, the lower-level MDP has a non-stationary transition function that is configurable through upper-level model-changing actions. The agent's objective consists of two parts: Optimize the configuration policies in the upper-level MDP and optimize the primitive action policies in the lower-level MDP to jointly improve its expected long-term reward.
- Abstract(参考訳): 強化学習は通常、エージェントがその長期割引報酬を最大化するために最適なポリシーを求める所定の環境または時折固定された環境を仮定する。
対照的に、受動的適応に制限されないエージェントは、代わりに、世界力学自体のRLモデルを積極的に修正するモデル変更アクションを持つ。
基盤となる遷移プロセスの再構成は、エージェントの報酬を増加させる可能性がある。
この設定により、多層構成可能な時間変化マルコフ決定プロセス(MCTVMDP)を導入する。
MCTVMDP では、下位レベルの MDP は、上位レベルのモデル変更動作によって構成可能な非定常遷移関数を持つ。
エージェントの目的は2つの部分から構成される: 上位のMDPにおける設定ポリシーを最適化し、下位のMDPにおけるプリミティブアクションポリシーを最適化し、期待される長期的な報酬を共同で改善する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Model-Based Decentralized Policy Optimization [27.745312627153012]
分散されたポリシー最適化は、協調的なマルチエージェントタスクでよく使われてきた。
モデルベース分散ポリシー最適化(MDPO)を提案する。
MDPOの政策最適化はモデルフリーの分散政策最適化よりも安定である。
論文 参考訳(メタデータ) (2023-02-16T08:15:18Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Coordinated Proximal Policy Optimization [28.780862892562308]
Coordinated Proximal Policy Optimization (CoPPO) は、オリジナルの Proximal Policy Optimization (PPO) をマルチエージェント設定に拡張するアルゴリズムである。
我々は,理論的な共同目的を最適化する際の政策改善の単調性を証明する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
論文 参考訳(メタデータ) (2021-11-07T11:14:19Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。