論文の概要: Remembering the Markov Property in Cooperative MARL
- arxiv url: http://arxiv.org/abs/2507.18333v1
- Date: Thu, 24 Jul 2025 11:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.612562
- Title: Remembering the Markov Property in Cooperative MARL
- Title(参考訳): 協調MARLにおけるマルコフ特性の思い出
- Authors: Kale-ab Abebe Tessera, Leonard Hinckeldey, Riccardo Zamboni, David Abel, Amos Storkey,
- Abstract要約: 共適応エージェントは脆い慣行を学習でき、非適応エージェントと組むと失敗する。
現代のMARL環境は、Dec-POMDPのコア仮定を十分にテストできない。
- 参考スコア(独自算出の注目度): 6.730957202419779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) is typically formalised as a Decentralised Partially Observable Markov Decision Process (Dec-POMDP), where agents must reason about the environment and other agents' behaviour. In practice, current model-free MARL algorithms use simple recurrent function approximators to address the challenge of reasoning about others using partial information. In this position paper, we argue that the empirical success of these methods is not due to effective Markov signal recovery, but rather to learning simple conventions that bypass environment observations and memory. Through a targeted case study, we show that co-adapting agents can learn brittle conventions, which then fail when partnered with non-adaptive agents. Crucially, the same models can learn grounded policies when the task design necessitates it, revealing that the issue is not a fundamental limitation of the learning models but a failure of the benchmark design. Our analysis also suggests that modern MARL environments may not adequately test the core assumptions of Dec-POMDPs. We therefore advocate for new cooperative environments built upon two core principles: (1) behaviours grounded in observations and (2) memory-based reasoning about other agents, ensuring success requires genuine skill rather than fragile, co-adapted agreements.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は、一般に、エージェントが環境や他のエージェントの振る舞いを推論する必要がある、分散部分観察可能なマルコフ決定プロセス(Dec-POMDP)として形式化されている。
実際には、現在のモデルフリーなMARLアルゴリズムは、部分的な情報を用いて他者について推論することの難しさに対処するために、単純なリカレント関数近似を用いている。
本稿では,これらの手法の実証的な成功は,マルコフ信号の有効回復によるものではなく,環境観測や記憶をバイパスする単純な規則を学習することによるものである,と論じる。
対象としたケーススタディにより、協調適応エージェントは脆い慣行を学習でき、非適応エージェントと組むと失敗することを示した。
重要なことは、同じモデルがタスク設計が必要なときに基礎となるポリシーを学ぶことができ、問題は学習モデルの基本的な制限ではなく、ベンチマーク設計の失敗であることを明らかにしている。
また,現代のMARL環境は,Dec-POMDPのコア仮定を十分に検証できない可能性が示唆された。
そこで我々は,(1)観察に根ざした行動と(2)他のエージェントに対する記憶に基づく推論という2つの基本原理に基づいて構築された新しい協調環境を提唱する。
関連論文リスト
- Causal Knowledge Transfer for Multi-Agent Reinforcement Learning in Dynamic Environments [1.2787026473187368]
エージェントが協調行動を学ぶ環境において、マルチエージェント強化学習(MARL)は顕著な成功を収めた。
MARLの伝統的な知識伝達手法は一般化に苦慮しており、エージェントは適応するために高価な再訓練を必要とすることが多い。
本稿では,RLエージェントが非定常環境における経路の因果表現を学習し,共有することを可能にする因果的知識伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-18T11:59:55Z) - Generalization in Monitored Markov Decision Processes (Mon-MDPs) [9.81003561034599]
多くの実世界のシナリオでは、報酬は常に観測可能であるわけではなく、モニターされたマルコフ決定プロセス(Mon-MDP)としてモデル化することができる。
本研究は,関数近似(FA)を用いてMon-MDPを探索し,関連する課題について検討する。
学習した報酬モデルと関数近似を組み合わせることで,監視対象状態から監視対象環境状態へ,監視対象状態から監視対象環境までの報酬を一般化できることを示す。
論文 参考訳(メタデータ) (2025-05-13T21:58:25Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。