論文の概要: Towards Deeper Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.01151v1
- Date: Wed, 2 Jun 2021 13:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 22:23:35.157520
- Title: Towards Deeper Deep Reinforcement Learning
- Title(参考訳): 深層強化学習に向けて
- Authors: Johan Bjorck, Carla P. Gomes, Kilian Q. Weinberger
- Abstract要約: コンピュータビジョンや自然言語処理では、最先端の強化学習アルゴリズムは小さな内在性のみを使用することが多い。
データセットのサイズが制限要因ではないことを示し、代わりに、SACのアクターが批判を通じて勾配を取る不安定性が原因であると主張する。
- 参考スコア(独自算出の注目度): 42.960199987696306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computer vision and natural language processing, innovations in model
architecture that lead to increases in model capacity have reliably translated
into gains in performance. In stark contrast with this trend, state-of-the-art
reinforcement learning (RL) algorithms often use only small MLPs, and gains in
performance typically originate from algorithmic innovations. It is natural to
hypothesize that small datasets in RL necessitate simple models to avoid
overfitting; however, this hypothesis is untested. In this paper we investigate
how RL agents are affected by exchanging the small MLPs with larger modern
networks with skip connections and normalization, focusing specifically on soft
actor-critic (SAC) algorithms. We verify, empirically, that na\"ively adopting
such architectures leads to instabilities and poor performance, likely
contributing to the popularity of simple models in practice. However, we show
that dataset size is not the limiting factor, and instead argue that intrinsic
instability from the actor in SAC taking gradients through the critic is the
culprit. We demonstrate that a simple smoothing method can mitigate this issue,
which enables stable training with large modern architectures. After smoothing,
larger models yield dramatic performance improvements for state-of-the-art
agents -- suggesting that more "easy" gains may be had by focusing on model
architectures in addition to algorithmic innovations.
- Abstract(参考訳): コンピュータビジョンや自然言語処理では、モデルの能力向上につながるモデルアーキテクチャの革新が、確実にパフォーマンスの向上に変換されている。
この傾向とは対照的に、最先端強化学習(RL)アルゴリズムは小さなMLPしか使用せず、性能の向上はアルゴリズムの革新から生じることが多い。
RLの小さなデータセットは過剰適合を避けるために単純なモデルを必要とするという仮説は自然であるが、この仮説は証明されていない。
本稿では,小型MLPをスキップ接続と正規化を備えた大規模ネットワークと交換することにより,RLエージェントがどのように影響するかについて検討する。
経験的に、このようなアーキテクチャをna\"積極的に採用することは不安定さと性能の低下をもたらし、実際に単純なモデルが普及する原因となる可能性が高いことを検証します。
しかし,データセットのサイズが制限要因ではないことを示し,その代わりに,sacのアクタが批判者を通じて勾配を取る内在的不安定性が原因であると主張する。
簡単な平滑化手法がこの問題を緩和し,大規模アーキテクチャによる安定したトレーニングを可能にすることを実証する。
平滑化の後、より大きなモデルは最先端のエージェントに劇的なパフォーマンス改善をもたらす - アルゴリズム的なイノベーションに加えて、モデルアーキテクチャに重点を置くことで、より"簡単"な成果が得られることを示唆する。
関連論文リスト
- Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。
本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。
これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-05T08:45:44Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。