論文の概要: Multi-Agent Path Finding via Offline RL and LLM Collaboration
- arxiv url: http://arxiv.org/abs/2509.22130v1
- Date: Fri, 26 Sep 2025 09:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.348551
- Title: Multi-Agent Path Finding via Offline RL and LLM Collaboration
- Title(参考訳): オフラインRLとLLMの協調によるマルチエージェント経路探索
- Authors: Merve Atasever, Matthew Hong, Mihir Nitin Kulkarni, Qingpei Li, Jyotirmoy V. Deshmukh,
- Abstract要約: Multi-Agent Path Finding (MAPF) は、ロボティクスやロジスティクスの応用において重要な課題となる。
決定変換器(DT)に基づく効率的な分散化計画フレームワークを提案する。
提案手法は,長期信用割当を効果的に処理し,疎度と遅延報酬を伴うシナリオの性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Path Finding (MAPF) poses a significant and challenging problem critical for applications in robotics and logistics, particularly due to its combinatorial complexity and the partial observability inherent in realistic environments. Decentralized reinforcement learning methods commonly encounter two substantial difficulties: first, they often yield self-centered behaviors among agents, resulting in frequent collisions, and second, their reliance on complex communication modules leads to prolonged training times, sometimes spanning weeks. To address these challenges, we propose an efficient decentralized planning framework based on the Decision Transformer (DT), uniquely leveraging offline reinforcement learning to substantially reduce training durations from weeks to mere hours. Crucially, our approach effectively handles long-horizon credit assignment and significantly improves performance in scenarios with sparse and delayed rewards. Furthermore, to overcome adaptability limitations inherent in standard RL methods under dynamic environmental changes, we integrate a large language model (GPT-4o) to dynamically guide agent policies. Extensive experiments in both static and dynamically changing environments demonstrate that our DT-based approach, augmented briefly by GPT-4o, significantly enhances adaptability and performance.
- Abstract(参考訳): MAPF(Multi-Agent Path Finding)は、ロボット工学やロジスティクスの応用において、特に組み合わせの複雑さと現実的な環境に固有の部分的な観測可能性のために、重要かつ困難な問題を引き起こす。
分散強化学習法は一般的に2つの重大な困難に直面する: まず、エージェント間での自己中心的な振る舞いをしばしば生じ、頻繁に衝突し、次に、複雑な通信モジュールへの依存は、長時間の訓練時間につながり、時には数週間にまたがる。
これらの課題に対処するために、オフライン強化学習を活用して、トレーニング期間を数週間からわずか数時間に短縮する、意思決定変換(DT)に基づく効率的な分散計画フレームワークを提案する。
重要なこととして,本手法は長期クレジットの割り当てを効果的に処理し,スパースや遅延した報酬を伴うシナリオの性能を著しく向上させる。
さらに、動的環境変化下での標準RL法固有の適応性制限を克服するため、エージェントポリシーを動的にガイドする大規模言語モデル(GPT-4o)を統合する。
GPT-4oにより短時間に拡張されたDTベースのアプローチは適応性と性能を著しく向上させる。
関連論文リスト
- Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。
有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。
LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文 参考訳(メタデータ) (2025-09-17T13:05:08Z) - Accelerating Privacy-Preserving Federated Learning in Large-Scale LEO Satellite Systems [57.692181589325116]
大規模な低地球軌道(LEO)衛星システムは、高速かつ広範囲のデータ交換を可能にする能力によって、ますます価値が高まっている。
プライバシー上の懸念と規制上の制約のため、リモートクライアントで収集された生データを集中的に集約することはできない。
フェデレーション学習は、分散デバイス上でローカルモデルをトレーニングし、モデルパラメータのみを交換することで、プライバシ保護の代替手段を提供する。
本稿では,コミュニケーションリソースを動的に割り当て,フェデレート学習を高速化する,離散時間グラフに基づくオンデマンドスケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-05T03:33:42Z) - GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。
本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。
GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文 参考訳(メタデータ) (2025-07-14T08:10:00Z) - Adaptive Resource Allocation Optimization Using Large Language Models in Dynamic Wireless Environments [25.866960634041092]
現在のソリューションはドメイン固有のアーキテクチャや技術に依存しており、制約付き最適化のための一般的なDLアプローチは未開発のままである。
本稿では,制約を順守しながら複雑な資源配分問題に対処するために,資源割当(LLM-RAO)のための大規模言語モデルを提案する。
LLM-RAO は従来の DL 法と比較して最大40% の性能向上を実現し,分析手法よりも80$% 向上した。
論文 参考訳(メタデータ) (2025-02-04T12:56:59Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は、無線ネットワークにおいて大きな変革をもたらしている。
無線環境では、LLMのトレーニングはセキュリティとプライバシに関する重大な課題に直面している。
本稿では,無線ネットワークにおけるLLMのトレーニング段階の体系的解析を行い,事前学習,命令チューニング,アライメントチューニングを行う。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer [49.716834343064015]
破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。
P2DT(Progressive Prompt Decision Transformer)を提案する。
この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
論文 参考訳(メタデータ) (2024-01-22T02:58:53Z) - Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文 参考訳(メタデータ) (2023-09-18T22:02:47Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。