論文の概要: Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems
- arxiv url: http://arxiv.org/abs/2602.13309v1
- Date: Tue, 10 Feb 2026 03:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.840259
- Title: Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems
- Title(参考訳): 適応的価値分解:都市システムにおけるエージェント数の調整
- Authors: Yexin Li, Jinjin Guo, Haoyu Zhang, Yuhan Zhao, Yiwen Sun, Zihao Jiao,
- Abstract要約: Adaptive Value Decomposition (AVD)は、動的に変化するエージェントに適応する協調的なMARLフレームワークである。
トレーニング実行戦略は、エージェントが異なるタイミングで行動するときの非同期な意思決定に対応するように設計されている。
- 参考スコア(独自算出の注目度): 19.19146852846605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) provides a promising paradigm for coordinating multi-agent systems (MAS). However, most existing methods rely on restrictive assumptions, such as a fixed number of agents and fully synchronous action execution. These assumptions are often violated in urban systems, where the number of active agents varies over time, and actions may have heterogeneous durations, resulting in a semi-MARL setting. Moreover, while sharing policy parameters among agents is commonly adopted to improve learning efficiency, it can lead to highly homogeneous actions when a subset of agents make decisions concurrently under similar observations, potentially degrading coordination quality. To address these challenges, we propose Adaptive Value Decomposition (AVD), a cooperative MARL framework that adapts to a dynamically changing agent population. AVD further incorporates a lightweight mechanism to mitigate action homogenization induced by shared policies, thereby encouraging behavioral diversity and maintaining effective cooperation among agents. In addition, we design a training-execution strategy tailored to the semi-MARL setting that accommodates asynchronous decision-making when some agents act at different times. Experiments on real-world bike-sharing redistribution tasks in two major cities, London and Washington, D.C., demonstrate that AVD outperforms state-of-the-art baselines, confirming its effectiveness and generalizability.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は,マルチエージェントシステム(MAS)をコーディネートするための有望なパラダイムを提供する。
しかし、既存のほとんどのメソッドは、固定数のエージェントや完全に同期されたアクションの実行など、制限的な仮定に依存している。
これらの仮定は、時間とともにアクティブなエージェントの数が変化する都市システムにおいてしばしば破られ、アクションは不均一な持続時間を持ち、半MARL設定となる。
さらに、エージェント間でポリシーパラメータを共有することは、学習効率を向上させるために一般的に採用されているが、エージェントのサブセットが同様の観察の下で同時に決定を下すと、調整品質が低下する可能性がある場合、非常に均一な行動を引き起こす可能性がある。
これらの課題に対処するために,動的に変化するエージェント集団に対応する協調的なMARLフレームワークであるAdaptive Value Decomposition (AVD)を提案する。
AVDはさらに、共有ポリシーによって誘導される行動均質化を緩和し、行動の多様性を促進し、エージェント間の効果的な協調を維持するための軽量なメカニズムを取り入れている。
さらに,エージェントが異なるタイミングで行動した場合の非同期意思決定に対応するセミMARL設定に合わせて,トレーニング実行戦略を設計する。
ロンドンとワシントンD.C.の2大都市における実際の自転車共有再分配作業の実験では、AVDが最先端のベースラインを上回っ、その有効性と一般化性を確認している。
関連論文リスト
- Adaptability in Multi-Agent Reinforcement Learning: A Framework and Unified Review [9.246912481179464]
MARL(Multi-Agent Reinforcement Learning)は、シミュレーションベンチマークと制約付きシナリオ間で複数のエージェントを協調する上で、明らかな効果を示している。
この調査は、動的で実世界のマルチエージェントシステムへのデプロイに適したアルゴリズムの開発に寄与する。
論文 参考訳(メタデータ) (2025-07-14T10:39:17Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - DSDF: An approach to handle stochastic agents in collaborative
multi-agent reinforcement learning [0.0]
ロボットの機能低下や老化によって引き起こされるエージェントの真偽が、協調の不確実性にどのように寄与するかを示す。
DSDFは不確実性に応じてエージェントの割引係数を調整し,その値を用いて個々のエージェントのユーティリティネットワークを更新する。
論文 参考訳(メタデータ) (2021-09-14T12:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。