論文の概要: Mean Field Games Flock! The Reinforcement Learning Way
- arxiv url: http://arxiv.org/abs/2105.07933v1
- Date: Mon, 17 May 2021 15:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 20:00:49.579416
- Title: Mean Field Games Flock! The Reinforcement Learning Way
- Title(参考訳): Mean Field Games Flock!
強化学習の方法
- Authors: Sarah Perrin, Mathieu Lauri\`ere, Julien P\'erolat, Matthieu Geist,
Romuald \'Elie, Olivier Pietquin
- Abstract要約: 本稿では,多数のエージェントが群れを学べるようにする方法を提案する。
これは多くの動物で観察される自然な行動である。
アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。
- 参考スコア(独自算出の注目度): 34.67098179276852
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a method enabling a large number of agents to learn how to flock,
which is a natural behavior observed in large populations of animals. This
problem has drawn a lot of interest but requires many structural assumptions
and is tractable only in small dimensions. We phrase this problem as a Mean
Field Game (MFG), where each individual chooses its acceleration depending on
the population behavior. Combining Deep Reinforcement Learning (RL) and
Normalizing Flows (NF), we obtain a tractable solution requiring only very weak
assumptions. Our algorithm finds a Nash Equilibrium and the agents adapt their
velocity to match the neighboring flock's average one. We use Fictitious Play
and alternate: (1) computing an approximate best response with Deep RL, and (2)
estimating the next population distribution with NF. We show numerically that
our algorithm learn multi-group or high-dimensional flocking with obstacles.
- Abstract(参考訳): 本研究では,多数の個体群で観察される自然行動である群れの学習を,多数のエージェントが行う方法を提案する。
この問題は多くの関心を惹きつけたが、多くの構造的仮定が必要であり、小さな次元でのみ引き出すことができる。
我々はこの問題を平均場ゲーム (MFG) と表現し、各個人が人口行動に応じて加速度を選択する。
深層強化学習 (rl) と正規化流れ (nf) を組み合わせることで, 極めて弱い仮定のみを必要とする扱いやすい解を得る。
我々のアルゴリズムはナッシュ平衡を発見し、エージェントはその速度を近隣のフロックの平均値と一致させる。
我々は架空の遊びを用いて,(1)深層rlを用いた近似最良応答の計算,(2)nfを用いた次の人口分布の推定を行う。
アルゴリズムが障害物を伴う多元群や高次元群れを学習できることを数値的に示す。
関連論文リスト
- Reinforcement Learning for Finite Space Mean-Field Type Games [3.8207676009459886]
平均場型ゲーム(MFTG)は、大連立間のナッシュ均衡を記述する。
有限空間設定でそのようなゲームに対する強化学習法を開発する。
論文 参考訳(メタデータ) (2024-09-25T17:15:26Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Population-aware Online Mirror Descent for Mean-Field Games by Deep
Reinforcement Learning [43.004209289015975]
平均フィールドゲーム(MFG)は、大規模マルチエージェントシステムを扱う能力を持つ。
本研究では,人口依存型ナッシュ均衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T08:55:34Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Winner Takes It All: Training Performant RL Populations for
Combinatorial Optimization [6.6765384699410095]
我々は、推論時に同時に展開できる相補的な政策の集団を学習する利点について論じる。
そこで我々は,Poppyが相補的なポリシーを複数生成し,4つのNPハード問題に対して最先端のRL結果を得ることを示した。
論文 参考訳(メタデータ) (2022-10-07T11:58:08Z) - Learning in Mean Field Games: A Survey [44.93300994923148]
平均フィールドゲームズ(MFG)は、プレイヤーの数を無限に増やすために平均フィールド近似に依存する。
MFGにおけるリベリアと社会的最適化のための強化学習法に関する最近の研究
本稿では,MFGを正確に解くための古典的反復法に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:49:37Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。