Fugu-MT 論文翻訳(概要): Probing Dec-POMDP Reasoning in Cooperative MARL

論文の概要: Probing Dec-POMDP Reasoning in Cooperative MARL

arxiv url: http://arxiv.org/abs/2602.20804v1
Date: Tue, 24 Feb 2026 11:44:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.731218
Title: Probing Dec-POMDP Reasoning in Cooperative MARL
Title（参考訳）: 協調MARLにおけるDec-POMDP推論の提案
Authors: Kale-ab Tessera, Leonard Hinckeldey, Riccardo Zamboni, David Abel, Amos Storkey,
Abstract要約: 統計的に基礎付けられた性能比較と情報理論プローブを組み合わせた診断スイートを提案する。 MPE、SMAX、Overcooked、Hanabi、MaBraxにまたがる37のシナリオにまたがるベースラインポリシーの振る舞いの複雑さを監査する。診断の結果,これらのベンチマークでの成功には真のDec-POMDP推論が要求されることは滅多にないことがわかった。
参考スコア（独自算出の注目度）: 6.246549316580709
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cooperative multi-agent reinforcement learning (MARL) is typically framed as a decentralised partially observable Markov decision process (Dec-POMDP), a setting whose hardness stems from two key challenges: partial observability and decentralised coordination. Genuinely solving such tasks requires Dec-POMDP reasoning, where agents use history to infer hidden states and coordinate based on local information. Yet it remains unclear whether popular benchmarks actually demand this reasoning or permit success via simpler strategies. We introduce a diagnostic suite combining statistically grounded performance comparisons and information-theoretic probes to audit the behavioural complexity of baseline policies (IPPO and MAPPO) across 37 scenarios spanning MPE, SMAX, Overcooked, Hanabi, and MaBrax. Our diagnostics reveal that success on these benchmarks rarely requires genuine Dec-POMDP reasoning. Reactive policies match the performance of memory-based agents in over half the scenarios, and emergent coordination frequently relies on brittle, synchronous action coupling rather than robust temporal influence. These findings suggest that some widely used benchmarks may not adequately test core Dec-POMDP assumptions under current training paradigms, potentially leading to over-optimistic assessments of progress. We release our diagnostic tooling to support more rigorous environment design and evaluation in cooperative MARL.
Abstract（参考訳）: 協調型マルチエージェント強化学習(MARL)は通常、部分観測可能マルコフ決定プロセス(Dec-POMDP)としてフレーム化される。エージェントは履歴を使って隠れた状態を推測し、ローカル情報に基づいて調整する。しかし、人気のあるベンチマークがこの理由を実際に求めているのか、もっと単純な戦略で成功を許しているのかは、まだ不明だ。本稿では,MPE,SMAX,Overcooked,Hanabi,MaBraxにまたがる37のシナリオを対象とした,ベースラインポリシー(IPPO,MAPPO)の振る舞いの複雑さを評価するために,統計的に基礎となる性能比較と情報理論プローブを組み合わせた診断スイートを提案する。診断の結果,これらのベンチマークでの成功には真のDec-POMDP推論が要求されることは滅多にないことがわかった。リアクティブポリシは、半分以上のシナリオでメモリベースのエージェントのパフォーマンスにマッチする。これらの結果から,現在のトレーニングパラダイム下でのDec-POMDP仮定を十分にテストできないベンチマークが広く使用されている場合があり,進捗の過度な最適化評価につながる可能性が示唆された。我々は,より厳密な環境設計と協調型MARLの評価を支援するための診断ツールをリリースする。

関連論文リスト

Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文参考訳（メタデータ） (2025-11-13T07:26:01Z)
Remembering the Markov Property in Cooperative MARL [6.730957202419779]
共適応エージェントは脆い慣行を学習でき、非適応エージェントと組むと失敗する。現代のMARL環境は、Dec-POMDPのコア仮定を十分にテストできない。
論文参考訳（メタデータ） (2025-07-24T11:59:42Z)
Joint modeling for learning decision-making dynamics in behavioral experiments [1.2699007098398807]
主要なうつ病 (MDD) は障害や死亡の原因である。本稿では,強化学習モデルとドリフト拡散モデルを統合する新しいフレームワークを提案する。以上の結果から,MDD患者は健常者よりも全体的なエンゲージメントが低いことが明らかとなった。
論文参考訳（メタデータ） (2025-06-03T03:21:10Z)
The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination [18.05548914181797]
ベンチマークデータ汚染(BDC)-トレーニングセットにベンチマークテストサンプルを含めることで、LLM(Large Language Model)評価における懸念が高まった。これを解決するために、研究者は既存のベンチマークを更新するための様々な緩和戦略を提案している。従来の評価手法、例えば精度低下や精度のマッチングは、集計精度のみに焦点を合わせ、しばしば不完全あるいは誤解を招く結論に至る。
論文参考訳（メタデータ） (2025-03-20T17:55:04Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。 PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文参考訳（メタデータ） (2024-10-15T05:10:34Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [3.351714665243138]
我々は,マルコフ決定過程(MDP)における非政治的評価の課題を再考し,分布重なりというより弱い概念の下で検討する。本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。我々の実験では、強い分布重なりが保たない場合、適切な乱れが、政治外の正確な評価を可能にする上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-13T03:55:56Z)
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文参考訳（メタデータ） (2023-11-03T18:56:48Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文参考訳（メタデータ） (2021-10-28T17:46:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。