論文の概要: Quality-Aware Exploration Budget Allocation for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.01865v1
- Date: Sun, 03 May 2026 13:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.971614
- Title: Quality-Aware Exploration Budget Allocation for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための品質を考慮した探索予算配分
- Authors: Dahyun Oh, Minhyuk Yoon, H. Jin Kim,
- Abstract要約: 固有のモチベーションは、探索を駆動する一般的なアプローチであるが、その効果は探索の強度にかかっている。
トレーニングよりもグローバルに$$を適用すること、本質的な報酬信号の信頼性が異なるエージェント間で調査予算を割り当てること、という2つの課題に対処する。
我々のフレームワークは、大域的な強度制御のための戻り条件付きシグモイドスケジュールと、エージェントごとの逆信号品質測定値を組み合わせたものである。
- 参考スコア(独自算出の注目度): 20.364473705766326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) requires agents to discover joint strategies in a combinatorially large state-action space, yet effective coordination configurations are exceedingly rare. Intrinsic motivation, which augments task rewards with novelty bonuses, is a popular approach for driving exploration, but its effectiveness hinges on the exploration intensity $β$, where too large a value overwhelms the task signal and causes coordination collapse, while too small a value prevents discovery of rare strategies. We address two complementary challenges: adapting $β$ globally over training, and allocating the exploration budget across agents whose intrinsic reward signals vary in reliability. Our framework combines a return-conditioned sigmoid schedule (RCB) for global intensity control with a per-agent Reward Signal Quality (RSQ) metric that concentrates the exploration budget on agents with reliable signals. The core insight is that agents receiving noisy intrinsic rewards should explore less aggressively, and this allocation can be determined automatically from signal-to-noise statistics. Successor Distance (SD), a quasimetric intrinsic reward, naturally produces distinguishable per-agent signal quality, completing the framework with convergence and ordering preservation guarantees. On seven cooperative benchmarks (MPE, SMAX, MABrax), our method achieves top-tier returns across all environments.
- Abstract(参考訳): 協調型マルチエージェント強化学習 (MARL) では, エージェントによる共同戦略の発見が求められるが, 効果的な協調構成は極めて稀である。
内在的モチベーション(英語版)は、新しいボーナスでタスク報酬を増大させるが、探索の推進には一般的なアプローチであるが、その効果は探索の強度に掛かる$β$(英語版)であり、そこでは、大きすぎる値がタスクシグナルを圧倒し、コーディネーションの崩壊を引き起こす一方で、小さすぎる値が希少な戦略の発見を妨げる。
トレーニングよりも全世界で$β$を適用すること、本質的な報酬信号の信頼性が異なるエージェント間で調査予算を割り当てること、という2つの相補的な課題に対処する。
我々のフレームワークは、大域的な強度制御のための戻り条件付きシグモイドスケジュール(RCB)と、信頼できる信号を持つエージェントの探索予算を集中するエージェントごとのReward Signal Quality(RSQ)メトリックを組み合わせる。
その中核となる洞察は、ノイズに満ちた固有報酬を受けるエージェントは積極的に探索しにくくすべきであり、このアロケーションは信号と雑音の統計から自動的に決定できるということである。
シグネクタディスタンス(SD)は、準メートル法固有の報酬であり、自然に識別可能なエージェントごとの信号品質を生成し、収束と保存保証の順序でフレームワークを完成させる。
7つの協調型ベンチマーク (MPE, SMAX, MABrax) において, 本手法は全環境において最上位のリターンを達成する。
関連論文リスト
- MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z) - CURO: Curriculum Learning for Relative Overgeneralization [6.573807158449973]
相対的オーバージェネリゼーション(Relative Over generalization, RO)は、協調的なマルチエージェントタスクで発生する病理である。
相対オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T03:41:08Z) - Resilient Consensus-based Multi-agent Reinforcement Learning [22.774403531759592]
我々は、各エージェントがローカルな報酬を受け取り、グローバルな状態と行動を監視する、完全に分散されたネットワークを考える。
本研究では, ビザンティンエージェントの存在下では, 推定・通信戦略が完全に任意である場合, 協調エージェントの推定値が有界コンセンサス値と確率値とに収束することを示す。
本研究では, 協調エージェントの政策が, チーム平均目標関数の局所最大値付近の有界近傍に収束することを証明する。
論文 参考訳(メタデータ) (2021-11-12T15:38:01Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。