論文の概要: One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.00206v1
- Date: Sat, 30 Oct 2021 08:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:03:52.259280
- Title: One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning
- Title(参考訳): 1つのステップ:多段階メタ段階強化学習の長所と短所
- Authors: Cl\'ement Bonnet, Paul Caron, Thomas Barrett, Ian Davies, Alexandre
Laterre
- Abstract要約: より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
- 参考スコア(独自算出の注目度): 61.662504399411695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-tuning algorithms that adapt the learning process online encourage more
effective and robust learning. Among all the methods available, meta-gradients
have emerged as a promising approach. They leverage the differentiability of
the learning rule with respect to some hyper-parameters to adapt them in an
online fashion. Although meta-gradients can be accumulated over multiple
learning steps to avoid myopic updates, this is rarely used in practice. In
this work, we demonstrate that whilst multi-step meta-gradients do provide a
better learning signal in expectation, this comes at the cost of a significant
increase in variance, hindering performance. In the light of this analysis, we
introduce a novel method mixing multiple inner steps that enjoys a more
accurate and robust meta-gradient signal, essentially trading off bias and
variance in meta-gradient estimation. When applied to the Snake game, the
mixing meta-gradient algorithm can cut the variance by a factor of 3 while
achieving similar or higher performance.
- Abstract(参考訳): オンラインの学習プロセスに適応する自己調整アルゴリズムは、より効果的で堅牢な学習を促進する。
利用可能なすべてのメソッドの中で、meta-gradientsは有望なアプローチとして現れています。
学習ルールの過度パラメータに対する微分可能性を活用して、オンライン方式で適応する。
メタグラディエンスは、近視的な更新を避けるために複数の学習ステップに蓄積することができるが、実際に使用されることはまれである。
本研究では,多段階のメタグラディエントが期待するより優れた学習信号を提供する一方で,分散が著しく増加し,性能が損なわれることを実証する。
そこで本研究では,複数の内部ステップを混合して,より正確で頑健なメタグラディエント信号(メタグラディエント信号)を合成する手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、分散を3倍に削減することができる。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach [38.76462300149459]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Efficient Meta-Learning for Continual Learning with Taylor Expansion
Approximation [2.28438857884398]
連続学習は、非定常分布下で連続的なタスクを処理する際の破滅的な忘れを緩和することを目的としている。
本稿では,オンライン連続学習問題を解決するためのメタ学習アルゴリズムを提案する。
提案手法は, 最先端手法と比較して, 高い性能, 高い効率を実現している。
論文 参考訳(メタデータ) (2022-10-03T04:57:05Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。
本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文 参考訳(メタデータ) (2021-04-30T16:19:07Z) - A contrastive rule for meta-learning [1.3124513975412255]
メタ学習アルゴリズムは、一連のタスクに存在する正規性を活用して、補助学習プロセスのパフォーマンスを高速化し改善する。
平衡伝播に基づく勾配に基づくメタラーニングアルゴリズムを提案する。
我々は、その性能に関する理論的境界を確立し、標準ベンチマークとニューラルネットワークアーキテクチャのセットで実験を行う。
論文 参考訳(メタデータ) (2021-04-04T19:45:41Z) - Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。
メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。
このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-14T18:36:33Z) - Multi-step Estimation for Gradient-based Meta-learning [3.4376560669160385]
内部ステップの窓において,同じ勾配を再利用してコストを削減できる簡易かつ簡単な手法を提案する。
本手法は,トレーニング時間やメモリ使用量を大幅に削減し,競争精度を維持したり,場合によっては性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-08T00:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。