論文の概要: Evolution of Rewards for Food and Motor Action by Simulating Birth and Death
- arxiv url: http://arxiv.org/abs/2406.15016v1
- Date: Fri, 21 Jun 2024 09:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.461669
- Title: Evolution of Rewards for Food and Motor Action by Simulating Birth and Death
- Title(参考訳): 出生と死を模擬した食品・運動行動に対する報酬の進化
- Authors: Yuji Kanagawa, Kenji Doya,
- Abstract要約: 本研究は,生物学的に妥当な報酬関数の進化を再現し,環境条件が報酬関数の進化形にどう影響するかを考察する。
以上の結果から, 食物摂取に対する生物学的に合理的な正の報奨と, 運動行動に対する負の報奨が, ランダムな報奨から進化する可能性が示唆された。
ポジティブな運動行動報酬の出現は、飼料の摂取においてエージェントがあまりにも活発で非効率になる可能性があるため、驚くべきことである。
- 参考スコア(独自算出の注目度): 1.9928758704251783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The reward system is one of the fundamental drivers of animal behaviors and is critical for survival and reproduction. Despite its importance, the problem of how the reward system has evolved is underexplored. In this paper, we try to replicate the evolution of biologically plausible reward functions and investigate how environmental conditions affect evolved rewards' shape. For this purpose, we developed a population-based decentralized evolutionary simulation framework, where agents maintain their energy level to live longer and produce more children. Each agent inherits its reward function from its parent subject to mutation and learns to get rewards via reinforcement learning throughout its lifetime. Our results show that biologically reasonable positive rewards for food acquisition and negative rewards for motor action can evolve from randomly initialized ones. However, we also find that the rewards for motor action diverge into two modes: largely positive and slightly negative. The emergence of positive motor action rewards is surprising because it can make agents too active and inefficient in foraging. In environments with poor and poisonous foods, the evolution of rewards for less important foods tends to be unstable, while rewards for normal foods are still stable. These results demonstrate the usefulness of our simulation environment and energy-dependent birth and death model for further studies of the origin of reward systems.
- Abstract(参考訳): 報酬体系は動物行動の基本的要因の1つであり、生存と繁殖に不可欠である。
その重要性にもかかわらず、報酬体系の進化に関する問題は過小評価されている。
本稿では,生物学的に妥当な報酬関数の進化を再現し,環境条件が報酬関数の進化形に与える影響について検討する。
そこで我々は,より長生きし,より多くの子どもを産み出すために,エージェントがエネルギーレベルを維持できる,集団ベースの分散型進化シミュレーションフレームワークを開発した。
それぞれのエージェントは、突然変異の対象となる親から報酬機能を継承し、その生涯を通じて強化学習を通じて報酬を得る。
以上の結果から, 食物摂取に対する生物学的に合理的な正の報奨と, 運動行動に対する負の報奨が, ランダムに初期化した報奨から進化する可能性が示唆された。
しかし,運動行動に対する報酬は,主に肯定的,わずかに否定的な2つのモードに分けられる。
ポジティブな運動行動報酬の出現は、飼料の摂取においてエージェントがあまりにも活発で非効率になる可能性があるため、驚くべきことである。
貧しく有毒な食品を持つ環境では、重要でない食品に対する報酬の進化は不安定になりがちであるが、通常の食品に対する報酬は依然として安定している。
これらの結果は,シミュレーション環境とエネルギー依存の出生・死亡モデルの有用性を示し,報奨制度の起源についてさらなる研究を行った。
関連論文リスト
- Continuously evolving rewards in an open-ended environment [0.0]
RULE: 学習と期待によるリワード更新は、単純化されたエコシステムのような環境でテストされます。
団体の人口は、当初は報われたが最終的に有害な行動の放棄をうまく証明した。
これらの調整は、継続的な学習において、外部の介入なしに、実体の根底にある報酬関数を内在的な修正によって行われる。
論文 参考訳(メタデータ) (2024-05-02T13:07:56Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Predator-prey survival pressure is sufficient to evolve swarming
behaviors [22.69193229479221]
混合協調競合型マルチエージェント強化学習に基づく最小限の捕食者・捕食者共進化フレームワークを提案する。
驚くべきことに、我々のこのアプローチの分析は、獲物と捕食者の両方にとって予期せぬほど多様な行動を示す。
論文 参考訳(メタデータ) (2023-08-24T08:03:11Z) - Developmental Curiosity and Social Interaction in Virtual Agents [2.8894038270224858]
我々は、仮想幼児エージェントを作成し、外部の報酬を伴わずに、発達にインスパイアされた3D環境に配置する。
我々は、人間の探索を促進するために提案されたモチベーションに類似した本質的な報酬関数をテストする。
注意深い介護者の存在下で世界モデルを学ぶことは、幼児エージェントがシナリオを予測する方法を学ぶのに役立ちます。
論文 参考訳(メタデータ) (2023-05-22T18:17:07Z) - Learning Goal-based Movement via Motivational-based Models in Cognitive
Mobile Robots [58.720142291102135]
人間は、強さと文脈に応じて行動を促進する必要がある。
また、各行動の知覚的快楽に関連する嗜好も作り出します。
これにより、意思決定がより複雑になり、コンテキストに応じてニーズと嗜好のバランスを取ることが求められます。
論文 参考訳(メタデータ) (2023-02-20T04:52:24Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - The Introspective Agent: Interdependence of Strategy, Physiology, and
Sensing for Embodied Agents [51.94554095091305]
本論では, 環境の文脈において, 自己能力を考慮した内省的エージェントについて論じる。
自然と同じように、私たちは戦略を1つのツールとして再編成して、環境において成功させたいと考えています。
論文 参考訳(メタデータ) (2022-01-02T20:14:01Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Novelty Search makes Evolvability Inevitable [62.997667081978825]
本研究では,ノベルティ探索が,有界な行動空間においても高い進化性を示す圧力を暗黙的に生み出すことを示す。
探索を通して,行動空間において非常に活発な個人に対して,新規性報酬の動的評価を行うことが示されている。
論文 参考訳(メタデータ) (2020-05-13T09:32:07Z) - Mimicking Evolution with Reinforcement Learning [10.35437633064506]
人工的な人間のような知性を発達させる道は、自然のシミュレーションで進化の過程を模倣することでもたらされると我々は主張する。
この研究は、進化的リワード(EvER)を通じて進化的リワード(Evolutionary Reward)を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。