論文の概要: Model-based Multi-agent Reinforcement Learning: Recent Progress and
Prospects
- arxiv url: http://arxiv.org/abs/2203.10603v1
- Date: Sun, 20 Mar 2022 17:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 08:44:58.084889
- Title: Model-based Multi-agent Reinforcement Learning: Recent Progress and
Prospects
- Title(参考訳): モデルに基づくマルチエージェント強化学習の現状と展望
- Authors: Xihuai Wang, Zhicheng Zhang, Weinan Zhang
- Abstract要約: マルチエージェント強化学習(MARL)は、複数の参加者が関与するシーケンシャルな意思決定問題に取り組む。
MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。
モデルに基づく手法は、サンプル効率の証明可能な利点を実現することが示されている。
- 参考スコア(独自算出の注目度): 23.347535672670688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant advances have recently been achieved in Multi-Agent Reinforcement
Learning (MARL) which tackles sequential decision-making problems involving
multiple participants. However, MARL requires a tremendous number of samples
for effective training. On the other hand, model-based methods have been shown
to achieve provable advantages of sample efficiency. However, the attempts of
model-based methods to MARL have just started very recently. This paper
presents a review of the existing research on model-based MARL, including
theoretical analyses, algorithms, and applications, and analyzes the advantages
and potential of model-based MARL. Specifically, we provide a detailed taxonomy
of the algorithms and point out the pros and cons for each algorithm according
to the challenges inherent to multi-agent scenarios. We also outline promising
directions for future development of this field.
- Abstract(参考訳): マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、複数の参加者が関与する逐次的な意思決定問題に対処する。
しかし、MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。
一方, モデルに基づく手法では, サンプル効率の有望な利点が得られることが示されている。
しかし、MARLに対するモデルベース手法の試みはごく最近始まったばかりである。
本稿では,モデルベースMARLの理論的解析,アルゴリズム,応用を含む既存研究のレビューを行い,モデルベースMARLの利点と可能性について分析する。
具体的には、アルゴリズムの詳細な分類を提供し、マルチエージェントシナリオに固有の課題に応じて各アルゴリズムの長所と短所を指摘する。
我々はまた、この分野の今後の発展に向けた有望な方向性を概説する。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning [22.733348449818838]
マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。
本稿では、データ拡張とよく設計された一貫性損失を統合することで、事前知識を活用するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T09:49:05Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - When does MAML Work the Best? An Empirical Study on Model-Agnostic
Meta-Learning in NLP Applications [22.212629148264124]
データ量、タスク間の類似性、一般的な言語モデルとタスク固有の適応のバランスなど、多くの影響要因が、NLPにおけるMAMLの性能に影響を与える可能性がある。
本稿では,これらの影響要因を調査し,MAMLが最適に機能するかどうかを実験的に検討する。
論文 参考訳(メタデータ) (2020-05-24T09:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。