論文の概要: Meta Continual Learning via Dynamic Programming
- arxiv url: http://arxiv.org/abs/2008.02219v2
- Date: Fri, 9 Oct 2020 15:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:55:29.264274
- Title: Meta Continual Learning via Dynamic Programming
- Title(参考訳): 動的プログラミングによるメタ連続学習
- Authors: R. Krishnan, Prasanna Balaprakash
- Abstract要約: 我々はメタ連続学習(MCL)のための新しい理論的アプローチを開発する。
動的プログラミングを用いて学習力学を数学的にモデル化し, MCL問題に対する最適条件を確立する。
提案手法は,従来の最先端手法に比べて精度が向上し,精度が向上することを示す。
- 参考スコア(独自算出の注目度): 1.0965065178451106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta continual learning algorithms seek to train a model when faced with
similar tasks observed in a sequential manner. Despite promising methodological
advancements, there is a lack of theoretical frameworks that enable analysis of
learning challenges such as generalization and catastrophic forgetting. To that
end, we develop a new theoretical approach for meta continual learning~(MCL)
where we mathematically model the learning dynamics using dynamic programming,
and we establish conditions of optimality for the MCL problem. Moreover, using
the theoretical framework, we derive a new dynamic-programming-based MCL method
that adopts stochastic-gradient-driven alternating optimization to balance
generalization and catastrophic forgetting. We show that, on MCL benchmark data
sets, our theoretically grounded method achieves accuracy better than or
comparable to that of existing state-of-the-art methods.
- Abstract(参考訳): メタ連続学習アルゴリズムは、シーケンシャルに観察される同様のタスクに直面した時にモデルを訓練することを求める。
有望な方法論的進歩にもかかわらず、一般化や破滅的な忘れなど学習課題の分析を可能にする理論的枠組みが欠如している。
そこで我々はメタ連続学習(MCL)の新しい理論的アプローチを開発し、動的プログラミングを用いて学習力学を数学的にモデル化し、MCL問題に対する最適条件を確立する。
さらに, この理論フレームワークを用いて, 確率的漸進型交互最適化を適用し, 一般化と破滅的忘れのバランスをとる動的プログラミングに基づくMCL法を提案する。
MCLベンチマークデータセットでは,提案手法は既存の最先端手法よりも精度が高いか,あるいは同等であることを示す。
関連論文リスト
- Three-Way Trade-Off in Multi-Objective Learning: Optimization,
Generalization and Conflict-Avoidance [47.42067405054353]
MOL(Multi-objective Learning)は、機械学習の新興問題においてしばしば発生する問題である。
MOLにおける重要な課題の1つは、反復最適化プロセスにおける異なる目的間の潜在的な衝突である。
近年,MGDAやその変種など,MOLの動的重み付けアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2023-05-31T17:31:56Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Modeling and Optimization Trade-off in Meta-learning [23.381986209234164]
メタラーニングにおいて、正確なモデリングと容易さのトレードオフを導入し、厳密に定義する。
我々はMAMLを代表的メタラーニングアルゴリズムとして、一般的な非リスク関数と線形回帰のトレードオフを理論的に特徴づける。
また,メタ強化学習ベンチマークのトレードオフを実証的に解決する。
論文 参考訳(メタデータ) (2020-10-24T15:32:08Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。