論文の概要: Events as Triggers for Behavioral Diversity in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.12388v2
- Date: Wed, 13 May 2026 11:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.907287
- Title: Events as Triggers for Behavioral Diversity in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における行動多様性のためのトリガーとしてのイベント
- Authors: Hannes Büchi, Manon Flageat, Eduardo Sebastián, Amanda Prorok,
- Abstract要約: これらの振る舞い遷移を定義するために、欠けている要素は$textbfevents$である、と我々は主張する。
本稿では,エージェントを行動から分離するフレームワークを紹介し,エージェントがイベントに応答して動作をインスタンス化する連続多様体をキャプチャする。
- 参考スコア(独自算出の注目度): 10.867011075689879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective multi-agent cooperation requires agents to adopt diverse behaviors as task conditions evolve-and to do so at the right moment. Yet, current Multi-Agent Reinforcement Learning (MARL) frameworks that facilitate this diversity are still limited by the fact that they bind fixed behaviors to fixed agent identities. Consequently, they are ill-equipped for tasks where agents need to take on different roles at very specific moments in time. We argue that, to define these behavioral transitions, the missing ingredient is $\textbf{events}$. Events are changes in the state of the system that induce qualitative changes in the task. Based on this view, we introduce a framework that decouples agent identity from behavior, capturing a continuous manifold from which agents instantiate their behaviors in response to events. This framework is based on two elements. First, to build an expressive behavior manifold, we introduce Neural Manifold Diversity (NMD), a formal distance metric that remains well-defined when behaviors are transient and agent-agnostic. Second, we use an event-based hypernetwork that generates Low-Rank Adaptation (LoRA) modules over a shared team policy, enabling on-the-fly agent-policy reconfiguration in response to events. We prove that this construction ensures that diversity does not interfere with reward maximization by design. Empirical results demonstrate that our framework outperforms established baselines across benchmarks while exhibiting zero-shot generalization, and being the only method that solves tasks requiring sequential behavior reassignment.
- Abstract(参考訳): 効果的なマルチエージェント協調は、タスク条件が進化するにつれて、エージェントが多様な行動を採用する必要があり、正しいタイミングでそれを行う必要がある。
しかし、この多様性を促進するMARL(Multi-Agent Reinforcement Learning)フレームワークは、固定された動作を固定されたエージェントIDにバインドするという事実によって、依然として制限されている。
そのため、エージェントが特定のタイミングで異なる役割を担わなければならないタスクには不適格である。
これらの挙動遷移を定義するために、欠けている成分は$\textbf{events}$である。
イベントは、タスクの質的な変更を引き起こすシステムの状態の変化である。
この観点から,エージェントアイデンティティを行動から分離するフレームワークを導入し,エージェントがイベントに応じて動作をインスタンス化する連続多様体をキャプチャする。
このフレームワークは2つの要素に基づいている。
まず、表現的振舞い多様体を構築するために、行動が過渡的かつエージェントに依存しないときに明確に定義された形式的距離計量であるNeural Manifold Diversity (NMD)を導入する。
第二に、イベントベースのハイパーネットワークを使用して、共有チームポリシーを介してLoRA(Lo-Rank Adaptation)モジュールを生成し、イベントに対するオンザフライエージェント・ポリシーの再設定を可能にします。
この構造は、多様性が設計による報酬の最大化に干渉しないことを保証する。
実験結果から,本フレームワークは,ゼロショットの一般化を示すとともに,ベンチマーク全体において確立されたベースラインよりも優れており,逐次的振る舞いの再割り当てを必要とするタスクを解決する唯一の方法であることが示された。
関連論文リスト
- Experience as a Compass: Multi-agent RAG with Evolving Orchestration and Agent Prompts [22.323342919724492]
HERAは階層的なフレームワークで、マルチエージェントオーケストレーションとロール固有のエージェントプロンプトを共同で進化させる。
HERAは最近のベースラインよりも平均38.69%改善している。
トポロジカル分析により、スパース探索がコンパクトで高ユーティリティなマルチエージェントネットワークを生み出す創発的な自己組織化が明らかになった。
論文 参考訳(メタデータ) (2026-04-01T13:45:52Z) - MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - BGC: Multi-Agent Group Belief with Graph Clustering [1.9949730506194252]
エージェントがコミュニケーションなしで情報を交換できる半通信方式を提案する。
近接するエージェントを小さなグループに分割し,グループ内のエージェントの信念を最小化するグループベースのモジュールを提案する。
その結果,提案手法はSMACベンチマークの大幅な改善を実現していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T07:07:20Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。