論文の概要: MAESTRO: Multi-Agent Environment Shaping through Task and Reward Optimization
- arxiv url: http://arxiv.org/abs/2511.19253v1
- Date: Mon, 24 Nov 2025 16:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.294011
- Title: MAESTRO: Multi-Agent Environment Shaping through Task and Reward Optimization
- Title(参考訳): MAESTRO:タスクとリワード最適化によるマルチエージェント環境形成
- Authors: Boyuan Wu,
- Abstract要約: 既存のアプローチは、制御ループ内で直接、固定生成されたLarge Language Models (LLM) に依存している。
我々は,PLMを実行ループ外に移動させるフレームワークであるMAESTROを提案し,オフラインのトレーニングアーキテクトとして使用している。
大規模交通信号制御(広州16交差点)におけるMAESTROの評価を行い,その制御方法について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative Multi-Agent Reinforcement Learning (MARL) faces two major design bottlenecks: crafting dense reward functions and constructing curricula that avoid local optima in high-dimensional, non-stationary environments. Existing approaches rely on fixed heuristics or use Large Language Models (LLMs) directly in the control loop, which is costly and unsuitable for real-time systems. We propose MAESTRO (Multi-Agent Environment Shaping through Task and Reward Optimization), a framework that moves the LLM outside the execution loop and uses it as an offline training architect. MAESTRO introduces two generative components: (i) a semantic curriculum generator that creates diverse, performance-driven traffic scenarios, and (ii) an automated reward synthesizer that produces executable Python reward functions adapted to evolving curriculum difficulty. These components guide a standard MARL backbone (MADDPG) without increasing inference cost at deployment. We evaluate MAESTRO on large-scale traffic signal control (Hangzhou, 16 intersections) and conduct controlled ablations. Results show that combining LLM-generated curricula with LLM-generated reward shaping yields improved performance and stability. Across four seeds, the full system achieves +4.0% higher mean return (163.26 vs. 156.93) and 2.2% better risk-adjusted performance (Sharpe 1.53 vs. 0.70) over a strong curriculum baseline. These findings highlight LLMs as effective high-level designers for cooperative MARL training.
- Abstract(参考訳): MARL(Cooperative Multi-Agent Reinforcement Learning)は、高次元非定常環境における局所的最適性を回避するための高密度報酬関数の構築とカリキュラム構築という、2つの主要な設計ボトルネックに直面している。
既存のアプローチは、固定ヒューリスティックスや、制御ループに直接Large Language Models(LLM)を使用する。
本稿では,MAESTRO(Multi-Agent Environment Shaping through Task and Reward Optimization)を提案する。
MAESTROは2つの生成成分を導入している。
(i)多種多様なパフォーマンス駆動の交通シナリオを作成するセマンティック・カリキュラム・ジェネレータ
(ii) カリキュラムの難易度に適応した実行可能Python報酬関数を生成する自動報酬合成器。
これらのコンポーネントは、標準のMARLバックボーン(MADDPG)をデプロイ時の推論コストを増大させることなくガイドする。
大規模交通信号制御(杭州16交差点)におけるMAESTROの評価を行い,その制御方法について検討した。
その結果, LLM 生成キュリキュラと LLM 生成の報酬形成を組み合わせれば, 性能, 安定性が向上することがわかった。
4つの種にまたがって、完全なシステムは+4.0%高い平均リターン(163.26 vs. 156.93)と2.2%のリスク調整性能(シャープ 1.53 vs. 0.70)を達成する。
これらの結果は,協調的MARLトレーニングに有効なハイレベルデザイナーとしてLLMが注目されている。
関連論文リスト
- Beyond Single LLMs: Enhanced Code Generation via Multi-Stage Performance-Guided LLM Orchestration [12.674888937998086]
大規模言語モデル(LLM)は、自動コード生成の主要なパラダイムとなっている。
本稿では,マルチステージなパフォーマンス誘導オーケストレーションフレームワークを導入することで,シングルモデルコンベンションに挑戦する。
Perchは、ステージワイドバリデーションとロールバックメカニズムを通じて、各タスクコンテキストでトップパフォーマンスのLLMをオーケストレーションする。
論文 参考訳(メタデータ) (2025-10-01T19:07:16Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation [12.098817831819078]
大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。
本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:54Z) - LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.343021413805699]
マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文 参考訳(メタデータ) (2025-03-25T06:28:42Z) - Dynamic Optimizations of LLM Ensembles with Two-Stage Reinforcement Learning Agents [31.341487297459995]
本稿では,LLMをルートおよびアンサンブルする2段階のRLエージェントフレームワークであるRL-Focalを紹介する。
焦点多様性により、報酬意識と政策適応型アンサンブル選択と推論融合を効果的に促進することにより、タスク間のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-02-06T20:44:26Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。