論文の概要: Probing Dec-POMDP Reasoning in Cooperative MARL
- arxiv url: http://arxiv.org/abs/2602.20804v1
- Date: Tue, 24 Feb 2026 11:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.731218
- Title: Probing Dec-POMDP Reasoning in Cooperative MARL
- Title(参考訳): 協調MARLにおけるDec-POMDP推論の提案
- Authors: Kale-ab Tessera, Leonard Hinckeldey, Riccardo Zamboni, David Abel, Amos Storkey,
- Abstract要約: 統計的に基礎付けられた性能比較と情報理論プローブを組み合わせた診断スイートを提案する。
MPE、SMAX、Overcooked、Hanabi、MaBraxにまたがる37のシナリオにまたがるベースラインポリシーの振る舞いの複雑さを監査する。
診断の結果,これらのベンチマークでの成功には真のDec-POMDP推論が要求されることは滅多にないことがわかった。
- 参考スコア(独自算出の注目度): 6.246549316580709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) is typically framed as a decentralised partially observable Markov decision process (Dec-POMDP), a setting whose hardness stems from two key challenges: partial observability and decentralised coordination. Genuinely solving such tasks requires Dec-POMDP reasoning, where agents use history to infer hidden states and coordinate based on local information. Yet it remains unclear whether popular benchmarks actually demand this reasoning or permit success via simpler strategies. We introduce a diagnostic suite combining statistically grounded performance comparisons and information-theoretic probes to audit the behavioural complexity of baseline policies (IPPO and MAPPO) across 37 scenarios spanning MPE, SMAX, Overcooked, Hanabi, and MaBrax. Our diagnostics reveal that success on these benchmarks rarely requires genuine Dec-POMDP reasoning. Reactive policies match the performance of memory-based agents in over half the scenarios, and emergent coordination frequently relies on brittle, synchronous action coupling rather than robust temporal influence. These findings suggest that some widely used benchmarks may not adequately test core Dec-POMDP assumptions under current training paradigms, potentially leading to over-optimistic assessments of progress. We release our diagnostic tooling to support more rigorous environment design and evaluation in cooperative MARL.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は通常、部分観測可能マルコフ決定プロセス(Dec-POMDP)としてフレーム化される。
エージェントは履歴を使って隠れた状態を推測し、ローカル情報に基づいて調整する。
しかし、人気のあるベンチマークがこの理由を実際に求めているのか、もっと単純な戦略で成功を許しているのかは、まだ不明だ。
本稿では,MPE,SMAX,Overcooked,Hanabi,MaBraxにまたがる37のシナリオを対象とした,ベースラインポリシー(IPPO,MAPPO)の振る舞いの複雑さを評価するために,統計的に基礎となる性能比較と情報理論プローブを組み合わせた診断スイートを提案する。
診断の結果,これらのベンチマークでの成功には真のDec-POMDP推論が要求されることは滅多にないことがわかった。
リアクティブポリシは、半分以上のシナリオでメモリベースのエージェントのパフォーマンスにマッチする。
これらの結果から,現在のトレーニングパラダイム下でのDec-POMDP仮定を十分にテストできないベンチマークが広く使用されている場合があり,進捗の過度な最適化評価につながる可能性が示唆された。
我々は,より厳密な環境設計と協調型MARLの評価を支援するための診断ツールをリリースする。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Remembering the Markov Property in Cooperative MARL [6.730957202419779]
共適応エージェントは脆い慣行を学習でき、非適応エージェントと組むと失敗する。
現代のMARL環境は、Dec-POMDPのコア仮定を十分にテストできない。
論文 参考訳(メタデータ) (2025-07-24T11:59:42Z) - Joint modeling for learning decision-making dynamics in behavioral experiments [1.2699007098398807]
主要なうつ病 (MDD) は障害や死亡の原因である。
本稿では,強化学習モデルとドリフト拡散モデルを統合する新しいフレームワークを提案する。
以上の結果から,MDD患者は健常者よりも全体的なエンゲージメントが低いことが明らかとなった。
論文 参考訳(メタデータ) (2025-06-03T03:21:10Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。