論文の概要: Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms
- arxiv url: http://arxiv.org/abs/2005.07782v1
- Date: Tue, 12 May 2020 01:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:14:14.341610
- Title: Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms
- Title(参考訳): Unbiased Deep Reinforcement Learning: 既存のアルゴリズムと将来のアルゴリズムのための一般的なトレーニングフレームワーク
- Authors: Huihui Zhang and Wu Huang
- Abstract要約: 本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
- 参考スコア(独自算出の注目度): 3.7050607140679026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years deep neural networks have been successfully applied to the
domains of reinforcement learning
\cite{bengio2009learning,krizhevsky2012imagenet,hinton2006reducing}. Deep
reinforcement learning \cite{mnih2015human} is reported to have the advantage
of learning effective policies directly from high-dimensional sensory inputs
over traditional agents. However, within the scope of the literature, there is
no fundamental change or improvement on the existing training framework. Here
we propose a novel training framework that is conceptually comprehensible and
potentially easy to be generalized to all feasible algorithms for reinforcement
learning. We employ Monte-carlo sampling to achieve raw data inputs, and train
them in batch to achieve Markov decision process sequences and synchronously
update the network parameters instead of experience replay. This training
framework proves to optimize the unbiased approximation of loss function whose
estimation exactly matches the real probability distribution data inputs
follow, and thus have overwhelming advantages of sample efficiency and
convergence rate over existing deep reinforcement learning after evaluating it
on both discrete action spaces and continuous control problems. Besides, we
propose several algorithms embedded with our new framework to deal with typical
discrete and continuous scenarios. These algorithms prove to be far more
efficient than their original versions under the framework of deep
reinforcement learning, and provide examples for existing and future algorithms
to generalize to our new framework.
- Abstract(参考訳): 近年、深層ニューラルネットワークが強化学習の領域でうまく適用されている(bengio2009learning,krizhevsky2012imagenet,hinton2006reducing})。
Deep reinforcement learning \cite{mnih2015human} は、従来のエージェントよりも高次元の感覚入力から直接効果的なポリシーを学習する利点があると報告されている。
しかし、文献の範囲内では、既存のトレーニングフレームワークに根本的な変更や改善はない。
本稿では、概念的に理解可能であり、強化学習のためのすべての実現可能なアルゴリズムに一般化し易い新しい学習フレームワークを提案する。
生データ入力を達成するためにモンテカルロサンプリングを用い,マルコフ決定プロセスシーケンスを達成するためにバッチで訓練し,経験リプレイの代わりにネットワークパラメータを同期的に更新する。
この学習フレームワークは,実確率分布データ入力と正確に一致する推定値を持つ損失関数の偏りのない近似を最適化することを証明し,離散行動空間と連続制御問題の両方で評価した後,既存の深層強化学習よりもサンプル効率と収束率を圧倒的に有する。
さらに,従来の離散的かつ連続的なシナリオを扱うために,新しいフレームワークを組み込んだアルゴリズムを提案する。
これらのアルゴリズムは、強化学習の枠組みの下で、元のバージョンよりもはるかに効率的であることが証明され、我々の新しいフレームワークに一般化するための既存および将来のアルゴリズムの例を提供する。
関連論文リスト
- Adaptive Training Distributions with Scalable Online Bilevel
Optimization [26.029033134519604]
Webスケールコーパスで事前訓練された大規模なニューラルネットワークは、現代の機械学習の中心である。
本研究は,対象とする試験条件を反映したデータのサンプルが少なければ,事前学習分布を変更することを検討する。
本稿では、この設定をオンライン二段階最適化問題として最近定式化したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T18:01:29Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - DLCFT: Deep Linear Continual Fine-Tuning for General Incremental
Learning [29.80680408934347]
事前学習した表現からモデルを連続的に微調整するインクリメンタルラーニングのための代替フレームワークを提案する。
本手法は, ニューラルネットワークの線形化手法を利用して, 単純かつ効果的な連続学習を行う。
本手法は,データ増分,タスク増分およびクラス増分学習問題において,一般的な連続学習設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-17T06:58:14Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Incremental Learning via Rate Reduction [26.323357617265163]
現在のディープラーニングアーキテクチャは、破滅的な忘れ込みに悩まされており、新しいクラスで漸進的にトレーニングされた時に、以前に学習したクラスの知識を保持することができません。
本稿では,ネットワークの各層をバック伝搬なしで明示的に計算する,レート低減の原理から導かれる代替の「ホワイトボックス」アーキテクチャを提案する。
このパラダイムの下では、事前訓練されたネットワークと新しいデータクラスが与えられた場合、我々のアプローチは、すべての過去のクラスと新しいクラスとの共同トレーニングをエミュレートする新しいネットワークを構築することができることを示す。
論文 参考訳(メタデータ) (2020-11-30T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。