論文の概要: A Role of Environmental Complexity on Representation Learning in Deep Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2407.03436v2
- Date: Wed, 19 Mar 2025 16:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:19:49.049369
- Title: A Role of Environmental Complexity on Representation Learning in Deep Reinforcement Learning Agents
- Title(参考訳): 深層強化学習エージェントの表現学習における環境複雑さの役割
- Authors: Andrew Liu, Alla Borisyuk,
- Abstract要約: 我々は,ショートカット利用ナビゲーションタスクにおいて,深層強化学習エージェントを訓練するためのシミュレーション環境を開発する。
初期学習を開始すると,全てのエージェントが閉じたショートカット試験において最適な性能を達成できることがわかった。
その結果、キューの頻繁な提示は、キューに遭遇するエージェントに比べて、個々のノードの活動においてキューの符号化がより良くなったことが判明した。
- 参考スコア(独自算出の注目度): 3.7314353481448337
- License:
- Abstract: We developed a simulated environment to train deep reinforcement learning agents on a shortcut usage navigation task, motivated by the Dual Solutions Paradigm test used for human navigators. We manipulated the frequency with which agents were exposed to a shortcut and a navigation cue, to investigate how these factors influence shortcut usage development. We find that all agents rapidly achieve optimal performance in closed shortcut trials once initial learning starts. However, their navigation speed and shortcut usage when it is open happen faster in agents with higher shortcut exposure. Analysis of the agents' artificial neural networks activity revealed that frequent presentation of a cue initially resulted in better encoding of the cue in the activity of individual nodes, compared to agents who encountered the cue less often. However, stronger cue representations were ultimately formed through the use of the cue in the context of navigation planning, rather than simply through exposure. We found that in all agents, spatial representations develop early in training and subsequently stabilize before navigation strategies fully develop, suggesting that having spatially consistent activations is necessary for basic navigation, but insufficient for advanced strategies. Further, using new analysis techniques, we found that the planned trajectory rather than the agent's immediate location is encoded in the agent's networks. Moreover, the encoding is represented at the population rather than the individual node level. These techniques could have broader applications in studying neural activity across populations of neurons or network nodes beyond individual activity patterns.
- Abstract(参考訳): 本研究では,人間ナビゲータ用デュアルソリューション・パラダイム・テスト(Dual Solutions Paradigm test)をモチベーションとして,深層強化学習エージェントをショートカット使用ナビゲーションタスクで訓練するためのシミュレーション環境を開発した。
エージェントがショートカットとナビゲーションキューに曝露される頻度を操作し,これらの要因がショートカットの使用状況にどのように影響するかを検討した。
初期学習を開始すると,全てのエージェントがクローズドショートカット試験において迅速に最適性能を達成できることがわかった。
しかし、開封時のナビゲーション速度とショートカットの使用は、より高いショートカット露光を持つエージェントでより高速に行われる。
エージェントの人工ニューラルネットワーク活動の分析により、キューの頻繁な表示は、キューに遭遇するエージェントよりも、個々のノードのアクティビティにおけるキューのエンコーディングが良くなったことが明らかとなった。
しかし、最終的により強力なキュー表現は、単に露光によってではなく、ナビゲーション計画の文脈におけるキューの使用によって形成された。
すべてのエージェントにおいて, 空間的表現は早期に発達し, ナビゲーション戦略が完全に発達する前に安定し, 基本的なナビゲーションには空間的に一貫した活性化が必要であるが, 高度な戦略には不十分であることが示唆された。
さらに,新たな解析手法により,エージェントの即時位置よりも計画された軌道がエージェントのネットワークに符号化されることが判明した。
さらに、符号化は個々のノードレベルではなく、人口で表現される。
これらの技術は、個々の活動パターンを超えたニューロンやネットワークノードの集団にわたる神経活動の研究に幅広い応用をもたらす可能性がある。
関連論文リスト
- NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - A transformer-based deep reinforcement learning approach to spatial navigation in a partially observable Morris Water Maze [0.0]
この研究は、モリス水迷路の2次元バージョンをナビゲートするために、深い強化学習を用いたトランスフォーマーベースのアーキテクチャを適用した。
提案アーキテクチャにより,エージェントが空間ナビゲーション戦略を効率的に学習できることを実証する。
この研究は、生物エージェントに類似した振る舞いを持つ人工エージェントの今後の研究への道のりを示唆している。
論文 参考訳(メタデータ) (2024-10-01T13:22:56Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Investigating Navigation Strategies in the Morris Water Maze through
Deep Reinforcement Learning [4.408196554639971]
本研究では,モリス水迷路を2次元で模擬し,深層強化学習エージェントの訓練を行う。
我々は、ナビゲーション戦略の自動分類を行い、人工エージェントが使用する戦略の分布を分析し、実験データと比較し、人間やげっ歯類と同様の学習力学を示す。
論文 参考訳(メタデータ) (2023-06-01T18:16:16Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Multi-Object Navigation with dynamically learned neural implicit
representations [10.182418917501064]
本稿では,各エピソードにおいて動的に学習される2つのニューラル暗示表現を用いてニューラルネットワークを構築することを提案する。
マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。
論文 参考訳(メタデータ) (2022-10-11T04:06:34Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。