論文の概要: Self-Imitation Learning via Generalized Lower Bound Q-learning
- arxiv url: http://arxiv.org/abs/2006.07442v3
- Date: Sun, 14 Feb 2021 00:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:08:06.627724
- Title: Self-Imitation Learning via Generalized Lower Bound Q-learning
- Title(参考訳): 一般化下界Q-ラーニングによる自己刺激学習
- Authors: Yunhao Tang
- Abstract要約: ローバウンドQ-ラーニングによって動機付けられた自己刺激学習は、政治以外の学習に新しく効果的なアプローチである。
元の戻り値に基づく下界Q-ラーニングを一般化するn段下界を提案する。
我々は,n段階の低境界Q-ラーニングが,帰納型自己イメージ学習や非修正n-stepの代替として,より堅牢であることを示す。
- 参考スコア(独自算出の注目度): 23.65188248947536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-imitation learning motivated by lower-bound Q-learning is a novel and
effective approach for off-policy learning. In this work, we propose a n-step
lower bound which generalizes the original return-based lower-bound Q-learning,
and introduce a new family of self-imitation learning algorithms. To provide a
formal motivation for the potential performance gains provided by
self-imitation learning, we show that n-step lower bound Q-learning achieves a
trade-off between fixed point bias and contraction rate, drawing close
connections to the popular uncorrected n-step Q-learning. We finally show that
n-step lower bound Q-learning is a more robust alternative to return-based
self-imitation learning and uncorrected n-step, over a wide range of continuous
control benchmark tasks.
- Abstract(参考訳): 低バウンドq学習に動機づけられた自己模倣学習は、オフポリシー学習に新しく効果的なアプローチである。
本研究では,元来の帰納型低値q学習を一般化したnステップ下限を提案し,新しい自己模倣学習アルゴリズムを提案する。
自己イメージ学習による潜在的な性能向上に対する公式な動機付けとして,n段階下限Q学習が固定点偏差と収縮率とのトレードオフを達成し,非修正n段階Q学習との密接な関係を示す。
最後に,nステップ下限q-learningは,多種多様な連続制御ベンチマークタスクにおいて,帰納型自己模倣学習と未修正n-ステップよりも強固な代替手段であることを示す。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Self-Paced Absolute Learning Progress as a Regularized Approach to
Curriculum Learning [4.054285623919103]
絶対学習プログレス(ALP)に基づくカリキュラムは、異なる環境で成功したが、新しいタスクで既に学習された振る舞いを繰り返すことによるムダ計算は成功している。
我々は,SPALP(Self-Paced Absolute Learning Progress)と呼ばれる,自己完結型(Deep)学習に基づく新たな正規化手法を導入することで,この問題を解決する。
提案手法は,全ての場合においてオリジナルALPに匹敵する性能を達成し,その2つの場合においてALPよりも高速に到達する。
論文 参考訳(メタデータ) (2023-06-09T09:17:51Z) - VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文 参考訳(メタデータ) (2023-05-29T15:44:47Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。