論文の概要: Analyzing the Hidden Activations of Deep Policy Networks: Why
Representation Matters
- arxiv url: http://arxiv.org/abs/2103.06398v1
- Date: Thu, 11 Mar 2021 00:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 02:31:50.016380
- Title: Analyzing the Hidden Activations of Deep Policy Networks: Why
Representation Matters
- Title(参考訳): ディープポリシーネットワークの隠れた活動の分析:なぜ表現が重要なのか
- Authors: Trevor A. McInroe and Michael Spurrier and Jennifer Sieber and Stephen
Conneely
- Abstract要約: 本研究では,深層強化学習(rl)エージェントのニューラルネットワークポリシの隠れたアクティベーションを分析する。
実証的に、状態表現が学習の速さに寄与するかどうかを事前に知ることは可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the hidden activations of neural network policies of deep
reinforcement learning (RL) agents and show, empirically, that it's possible to
know a priori if a state representation will lend itself to fast learning. RL
agents in high-dimensional states have two main learning burdens: (1) to learn
an action-selection policy and (2) to learn to discern between useful and
non-useful information in a given state. By learning a latent representation of
these high-dimensional states with an auxiliary model, the latter burden is
effectively removed, thereby leading to accelerated training progress. We
examine this phenomenon across tasks in the PyBullet Kuka environment, where an
agent must learn to control a robotic gripper to pick up an object. Our
analysis reveals how neural network policies learn to organize their internal
representation of the state space throughout training. The results from this
analysis provide three main insights into how deep RL agents learn. First, a
well-organized internal representation within the policy network is a
prerequisite to learning good action-selection. Second, a poor initial
representation can cause an unrecoverable collapse within a policy network.
Third, a good initial representation allows an agent's policy network to
organize its internal representation even before any training begins.
- Abstract(参考訳): 我々は、深層強化学習(RL)エージェントのニューラルネットワークポリシーの隠れた活性化を分析し、実証的に、状態表現が高速学習に寄与するかどうかを事前に知ることができることを示す。
高次元状態におけるRLエージェントには,(1)行動選択ポリシーを学ぶこと,(2)ある状態における有用情報と非有用情報の識別を学ぶこと,の2つの主な学習負担がある。
これらの高次元状態の潜在表現を補助モデルで学習することにより、後者の負担を効果的に除去し、トレーニングの進捗を加速させる。
この現象をPyBullet Kuka環境のタスクにまたがって検討し、エージェントがロボットグリッパーを制御してオブジェクトを拾う方法を学ぶ必要があります。
今回の分析により,ニューラルネットワークポリシがトレーニングを通じて状態空間の内部表現をどのように整理するかが明らかになった。
この分析の結果は、RLエージェントの深い学習方法に関する3つの主な洞察を提供します。
まず、ポリシーネットワーク内のよく組織された内部表現は、良い行動選択を学ぶための前提条件です。
第2に、まずい初期表現は、ポリシーネットワーク内で回復不能な崩壊を引き起こす可能性がある。
第三に、良い初期表現は、エージェントのポリシーネットワークがトレーニングが始まる前にも内部表現を整理することを可能にする。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Interpretable and Explainable Logical Policies via Neurally Guided
Symbolic Abstraction [23.552659248243806]
ニューラルgUided Differentiable loGic policiEs (NUDGE)を紹介する。
NUDGEは、トレーニングされたニューラルネットワークベースのエージェントを使用して、候補重み付けされたロジックルールの探索をガイドし、差別化可能なロジックを使用してロジックエージェントをトレーニングする。
実験により, NUDGEエージェントは, 純粋に神経性に優れ, 初期状態や問題の大きさの異なる環境に対して良好な柔軟性を示しながら, 解釈可能かつ説明可能なポリシーを誘導できることを示した。
論文 参考訳(メタデータ) (2023-06-02T10:59:44Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Multi-Object Navigation with dynamically learned neural implicit
representations [10.182418917501064]
本稿では,各エピソードにおいて動的に学習される2つのニューラル暗示表現を用いてニューラルネットワークを構築することを提案する。
マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。
論文 参考訳(メタデータ) (2022-10-11T04:06:34Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - Divergent representations of ethological visual inputs emerge from
supervised, unsupervised, and reinforcement learning [20.98896935012773]
8つの異なる畳み込みニューラルネットワークによって学習された表現を比較する。
強化学習で訓練されたネットワークは,他のネットワークと大きく異なることがわかった。
論文 参考訳(メタデータ) (2021-12-03T17:18:09Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。