論文の概要: Emergence of Internal State-Modulated Swarming in Multi-Agent Patch Foraging System
- arxiv url: http://arxiv.org/abs/2510.18886v1
- Date: Tue, 14 Oct 2025 08:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.132137
- Title: Emergence of Internal State-Modulated Swarming in Multi-Agent Patch Foraging System
- Title(参考訳): マルチエージェントパッチ鍛造システムにおける内部状態変調スワーミングの創出
- Authors: Siddharth Chaturvedi, Ahmed EL-Gazzar, Marcel van Gerven,
- Abstract要約: 活性粒子 (英: Active Particle) は、エネルギーを消費することによって持続的な平衡運動を維持する物質である。
非協力的な採餌作業を行っている間、群集における群集行動の出現は、環境の部分的観察可能性に起因する。
資源パッチが欠如している場合,群集の形で群集の出現を示す。
- 参考スコア(独自算出の注目度): 0.5753241925582826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active particles are entities that sustain persistent out-of-equilibrium motion by consuming energy. Under certain conditions, they exhibit the tendency to self-organize through coordinated movements, such as swarming via aggregation. While performing non-cooperative foraging tasks, the emergence of such swarming behavior in foragers, exemplifying active particles, has been attributed to the partial observability of the environment, in which the presence of another forager can serve as a proxy signal to indicate the potential presence of a food source or a resource patch. In this paper, we validate this phenomenon by simulating multiple self-propelled foragers as they forage from multiple resource patches in a non-cooperative manner. These foragers operate in a continuous two-dimensional space with stochastic position updates and partial observability. We evolve a shared policy in the form of a continuous-time recurrent neural network that serves as a velocity controller for the foragers. To this end, we use an evolutionary strategy algorithm wherein the different samples of the policy-distribution are evaluated in the same rollout. Then we show that agents are able to learn to adaptively forage in the environment. Next, we show the emergence of swarming in the form of aggregation among the foragers when resource patches are absent. We observe that the strength of this swarming behavior appears to be inversely proportional to the amount of resource stored in the foragers, which supports the risk-sensitive foraging claims. Empirical analysis of the learned controller's hidden states in minimal test runs uncovers their sensitivity to the amount of resource stored in a forager. Clamping these hidden states to represent a lesser amount of resource hastens its learned aggregation behavior.
- Abstract(参考訳): 活性粒子 (英: Active Particle) は、エネルギーを消費することによって持続的な平衡運動を維持する物質である。
特定の条件下では、アグリゲーションによるスワーミングのような協調した動きを通じて自己組織化する傾向を示す。
非協力的な採餌作業を行っている間、捕食者の群れ行動の出現、すなわち活性粒子の例示は、他の捕食者の存在が食糧源や資源パッチの潜在的な存在を示すためのプロキシシグナルとして機能する環境の部分的な観察性に起因する。
本稿では,複数の資源パッチを非協調的に捕食する際に,複数の自走式飼料を模擬することにより,この現象を検証した。
これらのフォアジャーは、確率的位置更新と部分観測可能性を備えた連続した2次元空間で動作する。
我々は、フォアジャーのベロシティコントローラとして機能する連続時間リカレントニューラルネットワークという形で、共有ポリシを進化させます。
この目的のために、我々は、ポリシー分布の異なるサンプルを同じロールアウトで評価する進化的戦略アルゴリズムを用いる。
そして、エージェントが環境の中で適応的に飼料を摂ることを学ぶことができることを示す。
次に,資源パッチの欠如による群集の出現を示す。
我々は,この群集行動の強さが,危険に敏感な捕食要求を支持する飼料に蓄えられた資源量と逆比例しているように見えることを観察した。
最小限のテスト実行における学習したコントローラの隠れ状態の実証分析は、フォアガーに格納されたリソースの量に対する感度を明らかにする。
これらの隠された状態をより少ない量のリソースを表すためにクランプすると、学習された集約の振る舞いが強まる。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - From Pheromones to Policies: Reinforcement Learning for Engineered Biological Swarms [0.0]
本研究では, フェロモンを介するセロモン凝集と強化学習(RL)の理論的等価性を確立する。
我々は,フェロモンが数学的に相互学習の更新を反映していることを示し,捕食作業を行う線虫群をモデル化した。
この結果から, 環境信号が外部メモリとして機能する分散RLプロセスは, スティグマイシン系が本質的にコード化されていることが示唆された。
論文 参考訳(メタデータ) (2025-09-24T13:16:35Z) - Allostatic Control of Persistent States in Spiking Neural Networks for perception and computation [79.16635054977068]
本稿では,アロスタシスの概念を内部表現の制御に拡張することにより,環境に対する知覚的信念を更新するための新しいモデルを提案する。
本稿では,アトラクタネットワークにおける活動の急増を空間的数値表現として利用する数値認識の応用に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-20T12:28:08Z) - Learning Action-based Representations Using Invariance [18.1941237781348]
我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
論文 参考訳(メタデータ) (2024-03-25T02:17:54Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Recurrent networks, hidden states and beliefs in partially observable
environments [3.4066110654930473]
強化学習は、動的に未知の環境との相互作用から最適な政策を学ぶことを目的としている。
隠れた状態では、部分的に観測可能な環境のQ-関数を近似した繰り返しニューラルネットワークが、最適な行動を取るという信念の関連する部分と相関する十分な統計を歴史から再現することを示す。
論文 参考訳(メタデータ) (2022-08-06T13:56:16Z) - Weakly Supervised Representation Learning with Sparse Perturbations [82.39171485023276]
潜伏変数のスパース摂動によって生じる観測の監督が弱い場合、未知の連続潜伏分布の下で識別が達成可能であることを示す。
本稿では,この理論に基づく自然な推定手法を提案し,それを低次元の合成および画像に基づく実験で説明する。
論文 参考訳(メタデータ) (2022-06-02T15:30:07Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。