論文の概要: A nonlinear hidden layer enables actor-critic agents to learn multiple
paired association navigation
- arxiv url: http://arxiv.org/abs/2106.13541v2
- Date: Fri, 16 Jul 2021 03:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 14:08:20.715050
- Title: A nonlinear hidden layer enables actor-critic agents to learn multiple
paired association navigation
- Title(参考訳): 非線形隠蔽層によりアクター批判エージェントは複数対の関連ナビゲーションを学習できる
- Authors: M Ganesh Kumar, Cheston Tan, Camilo Libedinsky, Shih-Cheng Yen, Andrew
Yong-Yi Tan
- Abstract要約: 複数の報酬場所へのナビゲーションは、げっ歯類学習の研究にますます使われている。
深層強化学習剤はタスクを学習できることが示されているが、生物学的には不可能である。
一つの報酬場所へ移動し、報酬位置の変位に適応するが、複数のペアの関連ナビゲーションを学べない古典的エージェントのバージョンを示す。
- 参考スコア(独自算出の注目度): 1.2074552857379273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigation to multiple cued reward locations has been increasingly used to
study rodent learning. Though deep reinforcement learning agents have been
shown to be able to learn the task, they are not biologically plausible.
Biologically plausible classic actor-critic agents have been shown to learn to
navigate to single reward locations, but which biologically plausible agents
are able to learn multiple cue-reward location tasks has remained unclear. In
this computational study, we show versions of classic agents that learn to
navigate to a single reward location, and adapt to reward location
displacement, but are not able to learn multiple paired association navigation.
The limitation is overcome by an agent in which place cell and cue information
are first processed by a feedforward nonlinear hidden layer with synapses to
the actor and critic subject to temporal difference error-modulated plasticity.
Faster learning is obtained when the feedforward layer is replaced by a
recurrent reservoir network.
- Abstract(参考訳): 複数の報酬場所へのナビゲーションは、げっ歯類学習の研究にますます使われている。
深層強化学習エージェントはタスクを学習できることが示されているが、生物学的には不可能である。
生物学的にもっともらしい古典的俳優批判エージェントは、単一の報酬の場所への移動を学ぶことが示されているが、生物学的にもっともらしいエージェントが複数のキュー・リワードの場所のタスクを学べるかどうかは不明である。
本研究では,1つの報酬位置への移動を学習し,報酬位置のずれに適応するが,複数の関連ナビゲーションを学習できない古典的エージェントのバージョンを示す。
この制限は、時間差誤差変調塑性を受けるアクター及び批評家にシナプスを付与したフィードフォワード非線形隠蔽層により、位置セルとキュー情報を最初に処理するエージェントによって克服される。
フィードフォワード層がリカレントリザーバネットワークに置き換えられると、より高速な学習が得られる。
関連論文リスト
- A Role of Environmental Complexity on Representation Learning in Deep Reinforcement Learning Agents [3.7314353481448337]
我々は、深層強化学習エージェントを訓練するためのシミュレーションナビゲーション環境を開発した。
ショートカットおよびナビゲーションキューへの露出頻度を変調し,異なる能力を有する人工エージェントの開発に繋がった。
これらのエージェントを駆動する人工ニューラルネットワークの符号化表現について検討し、表現学習における複雑なダイナミクスを明らかにした。
論文 参考訳(メタデータ) (2024-07-03T18:27:26Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。
私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。
動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文 参考訳(メタデータ) (2023-01-30T20:09:39Z) - Learning efficient backprojections across cortical hierarchies in real
time [1.6474865533365743]
階層型大脳皮質階層における効率的なフィードバック重み付けを学習するための生物工学的手法を提案する。
すべての重みは、常にオンの可塑性と同時に学習され、シナプスにローカルに利用可能な情報のみを使用する。
提案手法は幅広いモデルに適用可能であり, 既知の生物学的に妥当な信用代入方法を改善する。
論文 参考訳(メタデータ) (2022-12-20T13:54:04Z) - Multi-Object Navigation with dynamically learned neural implicit
representations [10.182418917501064]
本稿では,各エピソードにおいて動的に学習される2つのニューラル暗示表現を用いてニューラルネットワークを構築することを提案する。
マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。
論文 参考訳(メタデータ) (2022-10-11T04:06:34Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - One-shot learning of paired association navigation with biologically plausible schemas [3.990406494980651]
複数のペア・アソシエーション・ナビゲーションタスクにおける一発一発学習はスキーマに依存していると仮定されている。
生物学的に妥当なニューラル実装を持つスキーマからエージェントを構成する。
アクター・クリティカルによって補足されたスキーマは、障害が直接の進路を妨げたとしても、エージェントが成功することを示す。
論文 参考訳(メタデータ) (2021-06-07T13:03:51Z) - MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement
Learning Agents [0.0]
ニューラルネットワークをトレーニングする別の方法は、ネットワークの各ユニットを強化学習エージェントとして扱うことである。
本稿では,この分散を著しく低減するMAP伝搬という新しいアルゴリズムを提案する。
当社の作業は、深層強化学習におけるエージェントチームの広範な適用を可能にします。
論文 参考訳(メタデータ) (2020-10-15T17:17:39Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。