論文の概要: Scalable Multi-Agent Offline Reinforcement Learning and the Role of Information
- arxiv url: http://arxiv.org/abs/2502.11260v1
- Date: Sun, 16 Feb 2025 20:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:51.465966
- Title: Scalable Multi-Agent Offline Reinforcement Learning and the Role of Information
- Title(参考訳): スケーラブルなマルチエージェントオフライン強化学習と情報の役割
- Authors: Riccardo Zamboni, Enrico Brunetti, Marcello Restelli,
- Abstract要約: データセット収集とオフライン学習の両方にスケーラブルな新しいルーチンを提案する。
エージェントはまず、事前に特定された情報共有ネットワークと一貫性のある多様なデータセットを収集する。
提案手法は,FQIの教師あり学習段階における固有誤差を,共有情報と非共有情報との相互情報に限定することを可能にしている。
- 参考スコア(独自算出の注目度): 37.18643811339418
- License:
- Abstract: Offline Reinforcement Learning (RL) focuses on learning policies solely from a batch of previously collected data. of- fering the potential to leverage such datasets effectively without the need for costly or risky active exploration. While recent advances in Offline Multi-Agent RL (MARL) have shown promise, most existing methods either rely on large datasets jointly collected by all agents or agent-specific datasets collected independently. The former approach ensures strong performance but raises scalability concerns, while the latter emphasizes scalability at the expense of performance guarantees. In this work, we propose a novel scalable routine for both dataset collection and offline learning. Agents first collect diverse datasets coherently with a pre-specified information-sharing network and subsequently learn coherent localized policies without requiring either full observability or falling back to complete decentralization. We theoretically demonstrate that this structured approach allows a multi-agent extension of the seminal Fitted Q-Iteration (FQI) algorithm to globally converge, in high probability, to near-optimal policies. The convergence is subject to error terms that depend on the informativeness of the shared information. Furthermore, we show how this approach allows to bound the inherent error of the supervised-learning phase of FQI with the mutual information between shared and unshared information. Our algorithm, SCAlable Multi-agent FQI (SCAM-FQI), is then evaluated on a distributed decision-making problem. The empirical results align with our theoretical findings, supporting the effectiveness of SCAM-FQI in achieving a balance between scalability and policy performance.
- Abstract(参考訳): オフライン強化学習(RL)は、以前に収集されたデータのバッチからのみ学習ポリシーに焦点を当てる。
コストやリスクの高いアクティブな探索を必要とせずに、このようなデータセットを効果的に活用する可能性を推定する。
最近のOffline Multi-Agent RL (MARL) の進歩は有望であるが、既存の手法のほとんどは、すべてのエージェントが共同で収集した大規模なデータセットや、独立して収集したエージェント固有のデータセットに依存している。
前者のアプローチは強力なパフォーマンスを保証するが、スケーラビリティの懸念を提起する一方で、後者はパフォーマンスの保証を犠牲にしてスケーラビリティを強調している。
本研究では,データセット収集とオフライン学習の両面において,新しいスケーラブルなルーチンを提案する。
エージェントはまず、事前に指定された情報共有ネットワークと一貫性のあるさまざまなデータセットを収集し、その後、完全な可観測性や完全な分散化へのフォールバックを必要とせずに、一貫性のある局所的なポリシーを学ぶ。
理論的には、この構造的アプローチは、FQIアルゴリズムのマルチエージェント拡張を、高い確率で、かつ、ほぼ最適ポリシーに、グローバルに収束させることができることを証明している。
収束は、共有情報の情報性に依存する誤り項に該当する。
さらに,本手法は,FQIの教師あり学習段階の固有誤差を,共有情報と共有情報との相互情報とに関連付けることができることを示す。
提案アルゴリズムであるSCAM-FQI (SCAlable Multi-agent FQI) を分散意思決定問題に対して評価する。
実験結果は,SCAM-FQIのスケーラビリティと政策性能のバランスをとる上での有効性を裏付ける理論的な結果と一致した。
関連論文リスト
- Enhancing Offline Reinforcement Learning with Curriculum Learning-Based Trajectory Valuation [6.4653739435880455]
深層強化学習(DRL)は、訓練データの可用性と品質に依存しており、しばしば特定の環境との広範な相互作用を必要とする。
データ収集が高価でリスクの高い現実のシナリオでは、オフライン強化学習(RL)は、ドメインの専門家が収集したデータを活用し、バッチ制約のある最適ポリシーを探索することで、ソリューションを提供する。
既存のオフラインRLメソッドは、外部ソースからの非マッチングデータによって引き起こされる課題に悩まされることが多い。
論文 参考訳(メタデータ) (2025-02-02T00:03:53Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Distributed Event-Based Learning via ADMM [11.461617927469316]
エージェントがネットワーク上で情報を交換することで目的関数を最小化する,グローバルな分散学習問題を考える。
本手法は, (i) 必要なときにのみ通信をトリガーすることでコミュニケーションを大幅に削減し, (ii) 異なるエージェント間でのデータ分配を行う。
論文 参考訳(メタデータ) (2024-05-17T08:30:28Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。