論文の概要: From Pheromones to Policies: Reinforcement Learning for Engineered Biological Swarms
- arxiv url: http://arxiv.org/abs/2509.20095v1
- Date: Wed, 24 Sep 2025 13:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.819241
- Title: From Pheromones to Policies: Reinforcement Learning for Engineered Biological Swarms
- Title(参考訳): フェロモンから政策へ:工学的生物群集の強化学習
- Authors: Aymeric Vellinger, Nemanja Antonic, Elio Tuci,
- Abstract要約: 本研究では, フェロモンを介するセロモン凝集と強化学習(RL)の理論的等価性を確立する。
我々は,フェロモンが数学的に相互学習の更新を反映していることを示し,捕食作業を行う線虫群をモデル化した。
この結果から, 環境信号が外部メモリとして機能する分散RLプロセスは, スティグマイシン系が本質的にコード化されていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Swarm intelligence emerges from decentralised interactions among simple agents, enabling collective problem-solving. This study establishes a theoretical equivalence between pheromone-mediated aggregation in \celeg\ and reinforcement learning (RL), demonstrating how stigmergic signals function as distributed reward mechanisms. We model engineered nematode swarms performing foraging tasks, showing that pheromone dynamics mathematically mirror cross-learning updates, a fundamental RL algorithm. Experimental validation with data from literature confirms that our model accurately replicates empirical \celeg\ foraging patterns under static conditions. In dynamic environments, persistent pheromone trails create positive feedback loops that hinder adaptation by locking swarms into obsolete choices. Through computational experiments in multi-armed bandit scenarios, we reveal that introducing a minority of exploratory agents insensitive to pheromones restores collective plasticity, enabling rapid task switching. This behavioural heterogeneity balances exploration-exploitation trade-offs, implementing swarm-level extinction of outdated strategies. Our results demonstrate that stigmergic systems inherently encode distributed RL processes, where environmental signals act as external memory for collective credit assignment. By bridging synthetic biology with swarm robotics, this work advances programmable living systems capable of resilient decision-making in volatile environments.
- Abstract(参考訳): Swarmインテリジェンスは、単純なエージェント間の分散された相互作用から生まれ、集合的な問題解決を可能にする。
本研究は, フェロモンを介するアグリゲーションと強化学習(RL)の理論的等価性を確立し, スティグマイシンシグナルが分散報酬機構として機能することを示す。
我々は,フェロモンが数学的にクロスラーニングの更新を反映していることを示す基礎的RLアルゴリズムとして,捕食作業を行う線虫群をモデル化した。
文献データによる実験的検証により,本モデルが静的条件下での捕食パターンを正確に再現できることが確認された。
動的環境において、永続的なフェロモントレイルは正のフィードバックループを生成し、Swarmを古い選択にロックすることで適応を妨げる。
多武装バンディットのシナリオにおける計算実験を通じて,フェロモンに敏感な少数の探索エージェントの導入は,集合的可塑性を回復させ,迅速なタスク切替を可能にすることを明らかにした。
この行動の不均一性は、時代遅れの戦略の群レベルでの絶滅を実践し、探索と探索のトレードオフのバランスをとる。
この結果から, 環境信号が外部メモリとして機能する分散RLプロセスは, スティグマイシン系が本質的にコード化されていることが示唆された。
この研究は、合成生物学をスウォームロボティクスでブリッジすることで、揮発性環境における弾力性のある意思決定が可能なプログラム可能な生体システムを前進させる。
関連論文リスト
- Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。
最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。
ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:01:44Z) - A Simulation Environment for the Neuroevolution of Ant Colony Dynamics [0.0]
創発的集団行動の研究を促進するためのシミュレーション環境を導入する。
現実世界のデータを活用することで、環境はターゲットのアリの跡をシミュレートし、制御可能なエージェントが複製を学ばなければならない。
論文 参考訳(メタデータ) (2024-06-19T01:51:15Z) - Neural-network solutions to stochastic reaction networks [7.021105583098606]
本稿では,化学マスター方程式の解法として,変分自己回帰ネットワークを用いた機械学習手法を提案する。
提案手法は, 種数状態空間における結合確率分布の時間的変化を追跡する。
遺伝的トグルスイッチと初期生命自己複製器において、時間とともに確率分布を正確に生成することを示した。
論文 参考訳(メタデータ) (2022-09-29T07:27:59Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。