論文の概要: Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in Open-Ended Environments
- arxiv url: http://arxiv.org/abs/2506.06981v1
- Date: Sun, 08 Jun 2025 03:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.071987
- Title: Deep RL Needs Deep Behavior Analysis: Exploring Implicit Planning by Model-Free Agents in Open-Ended Environments
- Title(参考訳): 深部RLは深部行動分析を必要とする:オープンエンド環境におけるモデルフリーエージェントによるインシシシトプランニング
- Authors: Riley Simmons-Edler, Ryan P. Badman, Felix Baastad Berg, Raymond Chua, John J. Vastola, Joshua Lunger, William Qian, Kanaka Rajan,
- Abstract要約: 神経科学と倫理学のツールを応用し、新しい、複雑で部分的に観察可能な環境でDRLエージェントを研究する。
我々はこの環境をエージェントに共同行動分析とニューラル分析を適用するためのプラットフォームとして利用する。
一般的な仮定とは対照的に、モデルのないRNNベースのDRLエージェントは、構造化された計画的な振る舞いを示すことができる。
- 参考スコア(独自算出の注目度): 1.6576957162725725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the behavior of deep reinforcement learning (DRL) agents -- particularly as task and agent sophistication increase -- requires more than simple comparison of reward curves, yet standard methods for behavioral analysis remain underdeveloped in DRL. We apply tools from neuroscience and ethology to study DRL agents in a novel, complex, partially observable environment, ForageWorld, designed to capture key aspects of real-world animal foraging -- including sparse, depleting resource patches, predator threats, and spatially extended arenas. We use this environment as a platform for applying joint behavioral and neural analysis to agents, revealing detailed, quantitatively grounded insights into agent strategies, memory, and planning. Contrary to common assumptions, we find that model-free RNN-based DRL agents can exhibit structured, planning-like behavior purely through emergent dynamics -- without requiring explicit memory modules or world models. Our results show that studying DRL agents like animals -- analyzing them with neuroethology-inspired tools that reveal structure in both behavior and neural dynamics -- uncovers rich structure in their learning dynamics that would otherwise remain invisible. We distill these tools into a general analysis framework linking core behavioral and representational features to diagnostic methods, which can be reused for a wide range of tasks and agents. As agents grow more complex and autonomous, bridging neuroscience, cognitive science, and AI will be essential -- not just for understanding their behavior, but for ensuring safe alignment and maximizing desirable behaviors that are hard to measure via reward. We show how this can be done by drawing on lessons from how biological intelligence is studied.
- Abstract(参考訳): 深層強化学習(DRL)エージェントの挙動を理解するには、特にタスクとエージェントの高度化の増大は、報酬曲線の単純な比較以上のことが必要であるが、行動分析の標準的な方法は、DRLでは未発達のままである。
ForageWorldは、スパース、資源パッチの枯渇、捕食者の脅威、空間的に拡張されたアリーナなど、現実世界の動物の捕食の重要な側面を捉えるために設計された。
我々はこの環境をエージェントに共同行動分析とニューラル分析を適用するためのプラットフォームとして利用し、エージェント戦略、記憶、計画に関する詳細で定量的に根ざした洞察を明らかにする。
一般的な仮定とは対照的に、モデルフリーのRNNベースのDRLエージェントは、創発的ダイナミックスを通じて、明示的なメモリモジュールや世界モデルを必要とせずに、純粋に構造化された計画的行動を示すことができる。我々の研究結果は、動物のようなDRLエージェントを研究すること - 行動とニューロダイナミクスの両方の構造を明らかにする神経倫理にインスパイアされたツールを解析すること -- は、その学習ダイナミクスのリッチな構造を明らかにすることを示しています。これらのツールを一般的な分析フレームワークに融合し、コアな振る舞いと表現的特徴を、幅広いタスクやエージェントに再利用する診断方法にリンクさせる。エージェントがより複雑で自律的で、ブリッジングな神経科学、認知科学、AIは、行動を理解するために欠かせないものとなる。
我々は、生物学的知性の研究から学んだ教訓に基づき、これをどのように行うかを示す。
関連論文リスト
- Embodied World Models Emerge from Navigational Task in Open-Ended Environments [5.785697934050656]
プロシージャ的に生成された平面迷路を解決するために,スパース報酬のみで訓練された反復エージェントが,方向,距離,障害物レイアウトなどの計量概念を自律的に内部化できるかどうかを問う。
トレーニングの後、エージェントは、下層の空間モデルにヒントを与える行動である、見えない迷路において、常に準最適経路を生成する。
論文 参考訳(メタデータ) (2025-04-15T17:35:13Z) - Mechanistic Interpretability of Reinforcement Learning Agents [0.0]
本稿では、手続き的迷路環境下で訓練されたニューラルネットワークを用いて、強化学習(RL)エージェントの機械論的解釈可能性について検討する。
ネットワークの内部動作を分離することにより、迷路の壁や経路などの基本的な特徴を特定し、モデルの意思決定プロセスの基礎を形成しました。
論文 参考訳(メタデータ) (2024-10-30T21:02:50Z) - Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。