論文の概要: Return-based Scaling: Yet Another Normalisation Trick for Deep RL
- arxiv url: http://arxiv.org/abs/2105.05347v1
- Date: Tue, 11 May 2021 21:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 00:30:43.024618
- Title: Return-based Scaling: Yet Another Normalisation Trick for Deep RL
- Title(参考訳): 戻り値ベースのスケーリング:さらに、Deep RLの正規化トリック
- Authors: Tom Schaul, Georg Ostrovski, Iurii Kemaev, Diana Borsa
- Abstract要約: スケールする問題は、強化学習の実践者にとって日常的だが刺激的である。
我々は,時間差学習に基づくエージェントについて再検討し,デシデラタをスケッチし,単純な修正が不足するシナリオを検討する。
私たちのスケーリング手法は、報酬スケールやディスカウントが異なる複数のターゲットで共有ニューラルネットワークをトレーニングする場合、干渉を軽減するのに特に役立ちます。
- 参考スコア(独自算出の注目度): 10.23482870046239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling issues are mundane yet irritating for practitioners of reinforcement
learning. Error scales vary across domains, tasks, and stages of learning;
sometimes by many orders of magnitude. This can be detrimental to learning
speed and stability, create interference between learning tasks, and
necessitate substantial tuning. We revisit this topic for agents based on
temporal-difference learning, sketch out some desiderata and investigate
scenarios where simple fixes fall short. The mechanism we propose requires
neither tuning, clipping, nor adaptation. We validate its effectiveness and
robustness on the suite of Atari games. Our scaling method turns out to be
particularly helpful at mitigating interference, when training a shared neural
network on multiple targets that differ in reward scale or discounting.
- Abstract(参考訳): スケーリングの問題は平凡だが、強化学習を実践する人にとってはイライラする。
エラースケールは、学習のドメイン、タスク、ステージによって異なります。
これは学習速度と安定性に有害であり、学習タスク間の干渉が生じ、実質的なチューニングを必要とする。
我々は,時間差学習に基づくエージェントについて再検討し,デシデラタをスケッチし,単純な修正が不足するシナリオを検討する。
提案するメカニズムは、チューニング、クリップング、適応を必要としない。
atariゲームスイートの有効性と堅牢性を検証する。
私たちのスケーリング手法は、報酬スケールやディスカウントが異なる複数のターゲットで共有ニューラルネットワークをトレーニングする場合、干渉を軽減するのに特に役立ちます。
関連論文リスト
- Look At Me, No Replay! SurpriseNet: Anomaly Detection Inspired Class
Incremental Learning [14.529164755845688]
継続的学習は、一連のタスクに関するインクリメンタルトレーニングを通じて、知識とスキルを蓄積可能な、人工知能ニューラルネットワークを作成することを目的としている。
継続的な学習の主な課題は破滅的な干渉であり、そこでは新たな知識が過去の知識を覆い、あるいは干渉し、忘れてしまう。
提案手法であるSurpriseNetは,パラメータ分離法と,異常検出にインスパイアされたオートエンコーダを用いたクロスタスク知識の学習により,破滅的な干渉に対処する。
論文 参考訳(メタデータ) (2023-10-30T22:16:26Z) - Continual HyperTransformer: A Meta-Learner for Continual Few-Shot Learning [14.358095759378342]
我々は,複数のタスクが連続して到着するのを忘れずに,学習の課題に焦点をあてる。
我々は最近発表されたHyperTransformer (HT) を用いてこの問題にアプローチする。これはTransformerベースのハイパーネットワークで、サポートセットから直接タスク固有のCNN重みを生成する。
このようにして生成されたCNNウェイトは、以前に学習したタスクの表現として機能し、HTは、過去のタスクを忘れずに新しいタスクを学習できるように、これらの重みを更新するように訓練される。
論文 参考訳(メタデータ) (2023-01-11T17:27:47Z) - Broken Neural Scaling Laws [9.020652910657931]
ブロークニューラルスケーリング法(BNSL)は、ディープニューラルネットワークのスケーリング挙動を正確にモデル化し、外挿する。
このセットには、大規模ビジョン、言語、オーディオ、ビデオ、拡散、生成モデリング、マルチモーダル学習、コントラスト学習、AIアライメント、ロボット工学、アウト・オブ・ディストリビューション(OOD)一般化が含まれる。
論文 参考訳(メタデータ) (2022-10-26T17:45:01Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Center Loss Regularization for Continual Learning [0.0]
一般的に、ニューラルネットワークには、さまざまなタスクを逐次学習する能力がない。
提案手法では,従来のタスクに近い新しいタスクの表現を投影することで,古いタスクを記憶する。
提案手法は,最先端の継続的学習手法と比較して,スケーラブルで効果的で,競争力のある性能を示す。
論文 参考訳(メタデータ) (2021-10-21T17:46:44Z) - Continual Learning in Low-rank Orthogonal Subspaces [86.36417214618575]
連続学習(CL)では、学習者は一連のタスクに直面して次々に到着し、学習経験が終わるとすべてのタスクを覚えることが目的である。
CLの以前の技術は、タスク間の干渉を減らすためにエピソードメモリ、パラメータ正規化、ネットワーク構造を使用していたが、最終的には、全てのアプローチが共同ベクトル空間で異なるタスクを学習する。
干渉を最小限に抑えるために互いに直交する異なる(低ランクな)ベクトル部分空間でタスクを学習することを提案する。
論文 参考訳(メタデータ) (2020-10-22T12:07:43Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。