論文の概要: Learning Partial Action Replacement in Offline MARL
- arxiv url: http://arxiv.org/abs/2603.28573v1
- Date: Mon, 30 Mar 2026 15:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.478722
- Title: Learning Partial Action Replacement in Offline MARL
- Title(参考訳): オフラインMARLにおける部分的行動置換の学習
- Authors: Yue Jin, Giovanni Montana,
- Abstract要約: 部分アクション置換(Partial Action Replacement)は、アクションをデータセットするエージェントのサブセットをアンカーすることで、これを緩和する。
PLCQLは、PARサブセット選択を文脈的帯域幅問題として定式化するフレームワークである。
本研究では,推定誤差が予測されるエージェント数と線形にスケールすることを示す値エラー境界を証明した。
- 参考スコア(独自算出の注目度): 11.861550409939818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline multi-agent reinforcement learning (MARL) faces a critical challenge: the joint action space grows exponentially with the number of agents, making dataset coverage exponentially sparse and out-of-distribution (OOD) joint actions unavoidable. Partial Action Replacement (PAR) mitigates this by anchoring a subset of agents to dataset actions, but existing approach relies on enumerating multiple subset configurations at high computational cost and cannot adapt to varying states. We introduce PLCQL, a framework that formulates PAR subset selection as a contextual bandit problem and learns a state-dependent PAR policy using Proximal Policy Optimisation with an uncertainty-weighted reward. This adaptive policy dynamically determines how many agents to replace at each update step, balancing policy improvement against conservative value estimation. We prove a value-error bound showing that the estimation error scales linearly with the expected number of deviating agents. Compared with the previous PAR-based method SPaCQL, PLCQL reduces the number of per-iteration Q-function evaluations from n to 1, significantly improving computational efficiency. Empirically, PLCQL achieves the highest normalised scores on 66% of tasks across MPE, MaMuJoCo, and SMAC benchmarks, outperforming SPaCQL on 84% of tasks while substantially reducing computational cost.
- Abstract(参考訳): 協調行動空間はエージェントの数とともに指数関数的に増加し、データセットのカバレッジは指数関数的にスパース化し、アウト・オブ・ディストリビューション(OOD)は避けられない。
部分的アクション置換(PAR)は、エージェントのサブセットをデータセットアクションに固定することでこれを緩和するが、既存のアプローチは、高い計算コストで複数のサブセット構成を列挙することに依存しており、様々な状態に適応できない。
PLCQLは、PARサブセット選択を文脈的バンディット問題として定式化し、不確実性に重み付けされた報酬で近似ポリシー最適化を用いて状態依存PARポリシーを学習するフレームワークである。
この適応ポリシーは、各更新ステップで代わるエージェント数を動的に決定し、ポリシーの改善と保守的な価値推定とのバランスをとる。
本研究では,推定誤差が予測されるエージェント数と線形にスケールすることを示す値エラー境界を証明した。
従来のPARベースのSPaCQLと比較して、PLCQLは、各項目ごとのQ関数の評価回数をnから1に減らし、計算効率を大幅に向上させる。
PLCQLは、MPE、MaMuJoCo、SMACベンチマークで66%のタスクに対して最高に正規化されたスコアを獲得し、84%のタスクでSPaCQLを上回っ、計算コストを大幅に削減した。
関連論文リスト
- Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Partial Action Replacement: Tackling Distribution Shift in Offline MARL [11.861550409939818]
オフラインマルチエージェント強化学習(MARL)は、アウト・オブ・ディストリビューション・ジョイント・アクションを評価することの難しさによって著しく妨げられている。
我々は、OOD問題を緩和し、異なるPAR戦略を動的に重み付けするために、SPaCQL(Soft-Partial conservative Q-Learning)を開発した。
また,SPaCQLは不確実性インフォームドウェイトを用いた分散シフトに適応的に対応していることを示す。
論文 参考訳(メタデータ) (2025-11-10T20:56:58Z) - Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL)
逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。
一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文 参考訳(メタデータ) (2025-07-14T07:16:01Z) - Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。
提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。
我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文 参考訳(メタデータ) (2024-10-19T17:00:23Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning [54.788422270960496]
我々はCounterFactual conservative Q-Learning (CFCQL) という新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、各エージェントの保守的正規化を非現実的に別々に計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
単一エージェントの保守的手法のように, まだ過小評価特性と性能保証を享受していることが証明されているが, 誘導正規化と安全な政策改善境界はエージェント番号とは無関係である。
論文 参考訳(メタデータ) (2023-09-22T08:10:25Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。