論文の概要: Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study
- arxiv url: http://arxiv.org/abs/2201.01099v1
- Date: Tue, 4 Jan 2022 11:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 17:47:59.841077
- Title: Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study
- Title(参考訳): ABMにおける複雑な空間行動の学習 : 実験的観察研究
- Authors: Sedar Olmez, Dan Birks, Alison Heppenstall
- Abstract要約: 本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing and simulating intelligent adaptive behaviours within spatially
explicit individual-based models remains an ongoing challenge for researchers.
While an ever-increasing abundance of real-world behavioural data are
collected, few approaches exist that can quantify and formalise key individual
behaviours and how they change over space and time. Consequently, commonly used
agent decision-making frameworks, such as event-condition-action rules, are
often required to focus only on a narrow range of behaviours. We argue that
these behavioural frameworks often do not reflect real-world scenarios and fail
to capture how behaviours can develop in response to stimuli. There has been an
increased interest in Machine Learning methods and their potential to simulate
intelligent adaptive behaviours in recent years. One method that is beginning
to gain traction in this area is Reinforcement Learning (RL). This paper
explores how RL can be applied to create emergent agent behaviours using a
simple predator-prey Agent-Based Model (ABM). Running a series of simulations,
we demonstrate that agents trained using the novel Proximal Policy Optimisation
(PPO) algorithm behave in ways that exhibit properties of real-world
intelligent adaptive behaviours, such as hiding, evading and foraging.
- Abstract(参考訳): 空間的に明示的な個人モデル内での知的適応行動の捕獲とシミュレーションは、研究者にとって現在も進行中の課題である。
現実世界の行動データが大量に収集される一方で、重要な個々の行動の定量化と形式化、空間や時間とともにどのように変化するか、といったアプローチがいくつか存在する。
したがって、イベント・コンディション・アクション・ルールのような一般的に使用されるエージェント決定フレームワークは、狭い範囲の行動にのみ焦点を合わせる必要がある。
これらの行動フレームワークは現実世界のシナリオを反映しないことが多く、刺激に反応して行動がどのように発達するかを捉えることができない。
近年、機械学習の手法や、インテリジェントな適応行動をシミュレートする可能性への関心が高まっている。
この領域で注目を集め始めた方法の一つが強化学習(rl)である。
本稿では, 簡単な捕食者・捕食者モデル(ABM)を用いて, 創発的エージェント行動の生成にRLを適用する方法について検討する。
一連のシミュレーションを行い、新しいPPOアルゴリズムを用いて訓練されたエージェントが、隠蔽、回避、捕食などの現実世界の知的適応行動の特性を示す方法で行動することを示した。
関連論文リスト
- Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Simulating and classifying behavior in adversarial environments based on
action-state traces: an application to money laundering [18.625578105241]
本稿では,このようなアプリケーション,特にアンチ・モニー・ラダーリングの文脈において,新しいアプローチを提案する。
我々は, 多様な, 現実的で新しい非観測行動が生成され, 潜在的非観測的行動を発見するメカニズムを提供する。
論文 参考訳(メタデータ) (2020-11-03T16:30:53Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。