論文の概要: Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents
- arxiv url: http://arxiv.org/abs/2505.12204v2
- Date: Thu, 29 May 2025 15:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.417755
- Title: Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents
- Title(参考訳): マウスと機械:実世界マウスとRLエージェントの学習の比較
- Authors: Shuo Han, German Espinosa, Junda Huang, Daniel A. Dombeck, Malcolm A. MacIver, Bradly C. Stadie,
- Abstract要約: 近年の強化学習(RL)は,複雑な意思決定タスクにおいて顕著な能力を示した。
また, RL エージェントは自己保存本能の欠如を一貫して示し, 「死を危険にさらす」 と限界効率の向上を示唆している。
我々はRL剤のより自然主義的なリスク回避行動を促進する2つのメカニズムを提案する。
- 参考スコア(独自算出の注目度): 3.6854763550580745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning (RL) have demonstrated impressive capabilities in complex decision-making tasks. This progress raises a natural question: how do these artificial systems compare to biological agents, which have been shaped by millions of years of evolution? To help answer this question, we undertake a comparative study of biological mice and RL agents in a predator-avoidance maze environment. Through this analysis, we identify a striking disparity: RL agents consistently demonstrate a lack of self-preservation instinct, readily risking ``death'' for marginal efficiency gains. These risk-taking strategies are in contrast to biological agents, which exhibit sophisticated risk-assessment and avoidance behaviors. Towards bridging this gap between the biological and artificial, we propose two novel mechanisms that encourage more naturalistic risk-avoidance behaviors in RL agents. Our approach leads to the emergence of naturalistic behaviors, including strategic environment assessment, cautious path planning, and predator avoidance patterns that closely mirror those observed in biological systems.
- Abstract(参考訳): 近年の強化学習(RL)は,複雑な意思決定タスクにおいて顕著な能力を示した。
これらの人工システムは、何百万年にもわたって進化してきた生物のエージェントとどのように比べられるのか?
この疑問に答えるために、捕食者回避迷路環境における生物学的マウスとRLエージェントの比較研究を行った。
RLエージェントは、常に自己保存本能の欠如を示し、限界効率向上のために「死」を危険にさらす。
これらのリスクテイク戦略は、高度なリスク評価と回避行動を示す生物学的エージェントとは対照的である。
生物と人工のギャップを埋めるために, より自然主義的なリスク回避行動を促す2つのメカニズムを提案する。
我々のアプローチは、戦略的環境アセスメント、慎重な経路計画、生物学的システムで観察されたことを密接に反映した捕食者回避パターンなど、自然主義的な行動の出現につながる。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Adaptive patch foraging in deep reinforcement learning agents [4.654270325882834]
機械学習エージェントは、生物学的な捕食者に似たパターンに適応的に飼料にパッチを当てることを学ぶことができることを示す。
この研究は、生態学的に妥当な圧力で複雑な環境で相互作用するエージェントが共通の解に達することを示唆している。
論文 参考訳(メタデータ) (2022-10-14T20:16:02Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - The Introspective Agent: Interdependence of Strategy, Physiology, and
Sensing for Embodied Agents [51.94554095091305]
本論では, 環境の文脈において, 自己能力を考慮した内省的エージェントについて論じる。
自然と同じように、私たちは戦略を1つのツールとして再編成して、環境において成功させたいと考えています。
論文 参考訳(メタデータ) (2022-01-02T20:14:01Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Two steps to risk sensitivity [4.974890682815778]
条件付きバリュー・アット・リスク(CVaR)は、人間と動物の計画のモデル化のためのリスク尺度である。
CVaRに対する従来の分布的アプローチを逐次的に導入し、人間の意思決定者の選択を再分析する。
次に,リスク感度,すなわち時間的整合性,さらに重要な特性について考察し,CVaRの代替案を示す。
論文 参考訳(メタデータ) (2021-11-12T16:27:47Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。