論文の概要: Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.01999v1
- Date: Tue, 2 Apr 2024 14:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:59:17.624122
- Title: Emergence of Chemotactic Strategies with Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習によるケモティックストラテジーの創発
- Authors: Samuel Tovey, Christoph Lohrmann, Christian Holm,
- Abstract要約: ケモタキシーの訓練において,強化学習が生物学的システムに対する洞察を与えることができるかどうかを検討する。
各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。
RLの薬剤は、物理的に可能であればすぐに遊泳でき、場合によっては、アクティブスイミングが環境を圧倒する前にも、遊泳が可能であることが判明した。
- 参考スコア(独自算出の注目度): 1.9253333342733674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a flexible and efficient method for programming micro-robots in complex environments. Here we investigate whether reinforcement learning can provide insights into biological systems when trained to perform chemotaxis. Namely, whether we can learn about how intelligent agents process given information in order to swim towards a target. We run simulations covering a range of agent shapes, sizes, and swim speeds to determine if the physical constraints on biological swimmers, namely Brownian motion, lead to regions where reinforcement learners' training fails. We find that the RL agents can perform chemotaxis as soon as it is physically possible and, in some cases, even before the active swimming overpowers the stochastic environment. We study the efficiency of the emergent policy and identify convergence in agent size and swim speeds. Finally, we study the strategy adopted by the reinforcement learning algorithm to explain how the agents perform their tasks. To this end, we identify three emerging dominant strategies and several rare approaches taken. These strategies, whilst producing almost identical trajectories in simulation, are distinct and give insight into the possible mechanisms behind which biological agents explore their environment and respond to changing conditions.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な環境でマイクロロボットをプログラミングするための柔軟で効率的な方法である。
ここでは, 強化学習が, 化学運動の訓練を行う際の生体システムに対する洞察を与えることができるかどうかを検討する。
すなわち、知的エージェントがターゲットに向かって泳ぐために、与えられた情報をどのように処理するかを学ぶことができるかどうかである。
各種エージェントの形状,サイズ,水泳速度をシミュレーションし,生物学的水泳選手の身体的制約,すなわちブラウン運動が,強化学習者のトレーニングが失敗する地域につながるかどうかを判定する。
RL剤は, 身体的に可能であれば早期に遊泳でき, 能動的水泳が確率的環境を圧倒する前であっても, ある程度の確率で遊泳が可能であることが判明した。
創発的政策の効率性について検討し,エージェントサイズと水泳速度の収束性について検討した。
最後に、強化学習アルゴリズムが採用する戦略について検討し、エージェントがどのようにタスクを実行するかを説明する。
この目的のために、我々は3つの新たな支配的戦略といくつかの稀なアプローチを特定した。
これらの戦略は、シミュレーションにおいてほぼ同一の軌道を生成する一方で、生物学的エージェントが環境を探索し、変化する条件に反応する可能性についての洞察を与えている。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Replication of Multi-agent Reinforcement Learning for the "Hide and
Seek" Problem [0.552480439325792]
ドキュメントの欠如により、一度生成した戦略の複製が困難になる。
本研究のエージェントは、飛行機構に加えて、オープンアルの隠蔽剤や探索剤と同様にシミュレーションされる。
この追加機能により、Hiderエージェントは、約200万ステップから1.6万ステップとシーカーまで追跡戦略を開発することができる。
論文 参考訳(メタデータ) (2023-10-09T06:06:34Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Investigating Navigation Strategies in the Morris Water Maze through
Deep Reinforcement Learning [4.408196554639971]
本研究では,モリス水迷路を2次元で模擬し,深層強化学習エージェントの訓練を行う。
我々は、ナビゲーション戦略の自動分類を行い、人工エージェントが使用する戦略の分布を分析し、実験データと比較し、人間やげっ歯類と同様の学習力学を示す。
論文 参考訳(メタデータ) (2023-06-01T18:16:16Z) - DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated
and Musculoskeletal Systems [14.295720603503806]
大規模な筋骨格モデルの強化学習は、同様の性能を示すことができない。
我々は、大きな過度な作用空間における非効率な探索が重要な問題であると予想する。
筋骨格系において,DEPをRLに統合することにより,手を伸ばしたり移動したりする学習を高速に行うことができる。
論文 参考訳(メタデータ) (2022-05-30T15:52:54Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。