論文の概要: Investigating the Properties of Neural Network Representations in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.15955v3
- Date: Fri, 5 May 2023 04:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 17:50:05.225453
- Title: Investigating the Properties of Neural Network Representations in
Reinforcement Learning
- Title(参考訳): 強化学習におけるニューラルネットワーク表現の性質の検討
- Authors: Han Wang, Erfan Miahi, Martha White, Marlos C. Machado, Zaheer Abbas,
Raksha Kumaraswamy, Vincent Liu, Adam White
- Abstract要約: 本稿では,強化学習における伝達を支援する表現の特性を実証的に検討する。
我々は、画素ベースのナビゲーション環境において、補助的損失が異なる深層Q学習エージェントについて検討する。
そこで我々は,ある表現が転送に適する理由を,体系的なアプローチでよりよく理解する手法を開発した。
- 参考スコア(独自算出の注目度): 35.02223992335008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we investigate the properties of representations learned by
deep reinforcement learning systems. Much of the early work on representations
for reinforcement learning focused on designing fixed-basis architectures to
achieve properties thought to be desirable, such as orthogonality and sparsity.
In contrast, the idea behind deep reinforcement learning methods is that the
agent designer should not encode representational properties, but rather that
the data stream should determine the properties of the representation -- good
representations emerge under appropriate training schemes. In this paper we
bring these two perspectives together, empirically investigating the properties
of representations that support transfer in reinforcement learning. We
introduce and measure six representational properties over more than 25
thousand agent-task settings. We consider Deep Q-learning agents with different
auxiliary losses in a pixel-based navigation environment, with source and
transfer tasks corresponding to different goal locations. We develop a method
to better understand why some representations work better for transfer, through
a systematic approach varying task similarity and measuring and correlating
representation properties with transfer performance. We demonstrate the
generality of the methodology by investigating representations learned by a
Rainbow agent that successfully transfer across games modes in Atari 2600.
- Abstract(参考訳): 本稿では,深層強化学習システムで学習した表現の特性について検討する。
強化学習の表現に関する初期の研究の多くは、直交性や空間性など、望ましいと考えられる特性を達成するために固定基底アーキテクチャを設計することに焦点を当てていた。
対照的に、深層強化学習手法の背後にある考え方は、エージェントデザイナーは表現特性をエンコードすべきではなく、データストリームが表現の性質を決定するべきであるということである。
本稿では,これら2つの視点を組み合わせることで,強化学習における表現の性質を実証的に検討する。
25万以上のエージェントタスク設定に対して,6つの表現特性を導入し,測定する。
我々は、画素ベースのナビゲーション環境において、異なる補助的損失を持つ深度Q学習エージェントを、異なる目標位置に対応するソースおよび転送タスクで検討する。
提案手法は,タスクの類似性を変化させる体系的アプローチと,表現特性の測定と伝達性能との関連付けを通じて,表現がなぜ転送にうまく働くのかをよりよく理解する手法である。
atari 2600のゲームモード間での転送に成功しているレインボーエージェントが学習した表現を調べることで,この手法の汎用性を示す。
関連論文リスト
- Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。
手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。
シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - Learning with a Mole: Transferable latent spatial representations for
navigation without reconstruction [12.845774297648736]
ほとんどのエンドツーエンドの学習アプローチでは、表現は潜伏しており、通常は明確に定義された解釈を持っていない。
本研究では,目的とする下流タスクとは無関係にシーンの動作可能な表現を学習することを提案する。
学習された表現は、進路から分岐する複数の短いエピソードをナビゲートするように訓練された盲人補助エージェントによって最適化される。
論文 参考訳(メタデータ) (2023-06-06T16:51:43Z) - Objectives Matter: Understanding the Impact of Self-Supervised
Objectives on Vision Transformer Representations [13.437097059358067]
本研究では,再建型学習機能と共同埋め込み型学習機能との相違について述べる。
結合埋め込み特性は,異なる目的が異なる情報分布を駆動するため,分類のための線形プローブ転送の精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-04-25T18:48:23Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Representation Learning for Out-Of-Distribution Generalization in
Reinforcement Learning [39.21650402977466]
本稿では,実世界の下流作業における学習表現の有用性を,初めて体系的に評価することを目的とする。
1万以上の強化学習政策を訓練することにより、異なる表現特性がアウト・オブ・ディストリビューションの一般化にどの程度影響するかを広範囲に評価する。
ドメインのランダム化や微調整なしにシミュレーションから実世界へのポリシーのゼロショット転送を実証する。
論文 参考訳(メタデータ) (2021-07-12T18:49:48Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。