論文の概要: Improving Performance in Reinforcement Learning by Breaking
Generalization in Neural Networks
- arxiv url: http://arxiv.org/abs/2003.07417v1
- Date: Mon, 16 Mar 2020 19:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:30:46.133375
- Title: Improving Performance in Reinforcement Learning by Breaking
Generalization in Neural Networks
- Title(参考訳): ニューラルネットワークの分割一般化による強化学習の性能向上
- Authors: Sina Ghiassian, Banafsheh Rafiee, Yat Long Lo, Adam White
- Abstract要約: オンラインNNトレーニングと干渉が強化学習においてどのように相互作用するかを示す。
入力を高次元空間に再マッピングするだけで学習速度とパラメータ感度が向上することがわかった。
NNトレーニングに簡単なアプローチを提供し、実装が容易で、追加の計算をほとんど必要としない。
- 参考スコア(独自算出の注目度): 5.273501657421096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning systems require good representations to work well. For
decades practical success in reinforcement learning was limited to small
domains. Deep reinforcement learning systems, on the other hand, are scalable,
not dependent on domain specific prior knowledge and have been successfully
used to play Atari, in 3D navigation from pixels, and to control high degree of
freedom robots. Unfortunately, the performance of deep reinforcement learning
systems is sensitive to hyper-parameter settings and architecture choices. Even
well tuned systems exhibit significant instability both within a trial and
across experiment replications. In practice, significant expertise and trial
and error are usually required to achieve good performance. One potential
source of the problem is known as catastrophic interference: when later
training decreases performance by overriding previous learning. Interestingly,
the powerful generalization that makes Neural Networks (NN) so effective in
batch supervised learning might explain the challenges when applying them in
reinforcement learning tasks. In this paper, we explore how online NN training
and interference interact in reinforcement learning. We find that simply
re-mapping the input observations to a high-dimensional space improves learning
speed and parameter sensitivity. We also show this preprocessing reduces
interference in prediction tasks. More practically, we provide a simple
approach to NN training that is easy to implement, and requires little
additional computation. We demonstrate that our approach improves performance
in both prediction and control with an extensive batch of experiments in
classic control domains.
- Abstract(参考訳): 強化学習システムは優れた表現を必要とする。
何十年もの間、強化学習の実際的な成功は小さな領域に限られていた。
一方、深層強化学習システムはスケーラブルであり、ドメイン固有の事前知識に依存しておらず、Atariのプレイや画素からの3Dナビゲーション、高度な自由度ロボットの制御に成功している。
残念ながら、深層強化学習システムの性能はハイパーパラメータ設定やアーキテクチャの選択に敏感である。
十分に調整されたシステムでさえ、試行と実験の複製の両方において重大な不安定性を示す。
実際、優れたパフォーマンスを達成するためには、重要な専門知識と試行錯誤が必要となる。
この問題の潜在的な原因の1つは、破滅的干渉(catastrophic interference)として知られる: 後のトレーニングが以前の学習を過大にすることでパフォーマンスを低下させるとき。
興味深いことに、ニューラルネットワーク(NN)をバッチ教師付き学習に効果的にする強力な一般化は、強化学習タスクにニューラルネットワークを適用する際の課題を説明するかもしれない。
本稿では,強化学習におけるオンラインNNトレーニングと干渉の相互作用について考察する。
入力を高次元空間に再マッピングするだけで学習速度とパラメータ感度が向上することがわかった。
また,この前処理は予測タスクの干渉を減少させることを示した。
より現実的には、実装が容易で、追加の計算をほとんど必要としないNNトレーニングに簡単なアプローチを提供する。
提案手法は,従来の制御領域における多数の実験により,予測と制御の両方のパフォーマンスを向上させることを実証する。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Adversarial Training Using Feedback Loops [1.6114012813668932]
ディープニューラルネットワーク(DNN)は、一般化性に制限があるため、敵の攻撃に非常に敏感である。
本稿では制御理論に基づく新しいロバスト化手法を提案する。
フィードバック制御アーキテクチャに基づく新しい逆行訓練アプローチは、フィードバックループ逆行訓練(FLAT)と呼ばれる。
論文 参考訳(メタデータ) (2023-08-23T02:58:02Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - The least-control principle for learning at equilibrium [65.2998274413952]
我々は、平衡反復ニューラルネットワーク、深層平衡モデル、メタラーニングを学ぶための新しい原理を提案する。
私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供します。
論文 参考訳(メタデータ) (2022-07-04T11:27:08Z) - Hebbian Continual Representation Learning [9.54473759331265]
継続的学習は、より現実的なシナリオに機械学習をもたらすことを目的としています。
生物学的にインスパイアされたヘビアン学習が継続的な課題に対処するのに有用かどうかを検討する。
論文 参考訳(メタデータ) (2022-06-28T09:21:03Z) - Improving the sample-efficiency of neural architecture search with
reinforcement learning [0.0]
この作業では、Automated Machine Learning(AutoML)の領域にコントリビュートしたいと思っています。
我々の焦点は、最も有望な研究方向の一つ、強化学習である。
児童ネットワークの検証精度は、コントローラを訓練するための報奨信号として機能する。
我々は、これをより現代的で複雑なアルゴリズムであるPPOに修正することを提案する。
論文 参考訳(メタデータ) (2021-10-13T14:30:09Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Improving Learning Efficiency for Wireless Resource Allocation with
Symmetric Prior [28.275250620630466]
本稿では、まず、ドメイン知識を利用するための2つのアプローチのクラスを、数学的モデルの導入とディープラーニングへの事前知識の2つにまとめる。
このような総合的な事前手法が学習効率の向上にどのように活用されているかを説明するために,我々はランク付けを頼りにしている。
システム性能を達成するために必要なトレーニングサンプルは,サブキャリア数やコンテンツ数によって減少することがわかった。
論文 参考訳(メタデータ) (2020-05-18T07:57:34Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z) - Memristor Hardware-Friendly Reinforcement Learning [14.853739554366351]
そこで我々は,強化学習におけるアクター・クリティック・アルゴリズムのための経験的ニューロモルフィック・ハードウェアの実装を提案する。
RLと制御理論の両方において古典的な問題である逆振り子のバランスをとることを考える。
本研究は,メムリスタをベースとしたハードウェアニューラルネットワークを用いて複雑なタスクをその場での強化学習によって処理する可能性を示唆している。
論文 参考訳(メタデータ) (2020-01-20T01:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。