論文の概要: LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems
- arxiv url: http://arxiv.org/abs/2511.19368v1
- Date: Mon, 24 Nov 2025 18:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.360722
- Title: LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems
- Title(参考訳): モバイルシステムにおけるマルチエージェント強化学習のためのLCM駆動型定常エキスパートデモ
- Authors: Tianyang Duan, Zongyuan Zhang, Zheng Lin, Songxiao Guo, Xiuxian Guan, Guangyu Wu, Zihan Fang, Haotian Meng, Xia Du, Ji-Zhe Zhou, Heming Cui, Jun Luo, Yue Gao,
- Abstract要約: マルチエージェント強化学習(MARL)は多くの実世界のアプリケーションで採用されている。
MARLはエージェントポリシーの同期更新により、厳格な非定常性に悩まされる。
大規模言語モデル(LLM)駆動のエキスパートデモと自律エージェント探索を統合した,スケーラブルなMARLフレームワークであるRELEDを提案する。
- 参考スコア(独自算出の注目度): 24.923288853813073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has been increasingly adopted in many real-world applications. While MARL enables decentralized deployment on resource-constrained edge devices, it suffers from severe non-stationarity due to the synchronous updates of agent policies. This non stationarity results in unstable training and poor policy con vergence, especially as the number of agents increases. In this paper, we propose RELED, a scalable MARL framework that integrates large language model (LLM)-driven expert demonstrations with autonomous agent exploration. RELED incorporates a Stationarity-Aware Expert Demonstration module, which leverages theoretical non-stationarity bounds to enhance the quality of LLM-generated expert trajectories, thus providing high reward and training-stable samples for each agent. Moreover, a Hybrid Expert-Agent Policy Optimization module adaptively balances each agent's learning from both expert-generated and agent-generated trajectories, accelerating policy convergence and improving generalization. Extensive experiments with real city networks based on OpenStreetMap demonstrate that RELED achieves superior performance compared to state-of-the-art MARL methods.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は多くの実世界のアプリケーションで採用されている。
MARLはリソース制約のあるエッジデバイスへの分散デプロイメントを可能にするが、エージェントポリシーの同期更新により、深刻な非定常性に悩まされる。
この非定常性は、特にエージェントの数が増加するにつれて不安定な訓練と政策の収束を損なう。
本稿では,大規模言語モデル(LLM)によるエキスパートデモンストレーションと自律エージェント探索を統合したスケーラブルなMARLフレームワークであるRELEDを提案する。
RELEDには、理論上の非定常性バウンダリを活用してLLM生成の専門家軌道の質を高め、各エージェントに対して高い報酬とトレーニング安定なサンプルを提供する固定性対応エキスパートデモモジュールが組み込まれている。
さらに、Hybrid Expert-Agent Policy Optimizationモジュールは、専門家生成とエージェント生成の両方からの学習を適応的にバランスさせ、ポリシー収束を加速し、一般化を改善する。
OpenStreetMapに基づく実都市ネットワークによる大規模な実験により、RELEDは最先端のMARL法よりも優れた性能を発揮することが示された。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - LEED: A Highly Efficient and Scalable LLM-Empowered Expert Demonstrations Framework for Multi-Agent Reinforcement Learning [17.656443715585343]
マルチエージェント強化学習(MARL)は、複雑な環境でのインテリジェントな意思決定を大いに約束する。
LLMを利用した多エージェント強化学習(LEED)のためのエキスパートデモフレームワークを提案する。
LEEDはデモ生成(DG)モジュールとポリシー最適化(PO)モジュールの2つのコンポーネントで構成されている。
実験の結果, LEEDは, 最先端のベースラインに比べて, サンプル効率, 時間効率, 堅牢性に優れていた。
論文 参考訳(メタデータ) (2025-09-18T07:19:24Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。