論文の概要: Lagrangian Duality in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.09998v3
- Date: Sat, 25 Jul 2020 01:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 10:11:44.704349
- Title: Lagrangian Duality in Reinforcement Learning
- Title(参考訳): 強化学習におけるラグランジュ双対性
- Authors: Pranay Pasula
- Abstract要約: 本稿では,TRPO,A3C,GAILなど,多種多様な強化学習作業に双対性がどのように関与しているかを示す。
特に、価値反復や動的プログラミングが使われる場合、強化学習では双対性は珍しくないことが示されます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although duality is used extensively in certain fields, such as supervised
learning in machine learning, it has been much less explored in others, such as
reinforcement learning (RL). In this paper, we show how duality is involved in
a variety of RL work, from that which spearheaded the field, such as Richard
Bellman's value iteration, to that which was done within just the past few
years yet has already had significant impact, such as TRPO, A3C, and GAIL. We
show that duality is not uncommon in reinforcement learning, especially when
value iteration, or dynamic programming, is used or when first or second order
approximations are made to transform initially intractable problems into
tractable convex programs.
- Abstract(参考訳): 双対性は、機械学習の教師あり学習など特定の分野で広く使われているが、強化学習(RL)など、他の分野ではあまり研究されていない。
本稿では,リヒャルト・ベルマン(Richard Bellman)の値反復のような分野を先導した分野から,TRPO,A3C,GAILといった過去数年間に実施された分野まで,多種多様なRL作業に双対性がどのように関与しているかを示す。
強化学習において、特に値反復や動的プログラミングが用いられる場合や、初等または二次近似が初期の難解な問題を扱いやすい凸プログラムに変換する場合において、双対性は珍しくないことが示されている。
関連論文リスト
- Efficient Two-Phase Offline Deep Reinforcement Learning from Preference
Feedback [5.683832910692926]
オフラインPBRL設定における二相学習の適用には課題がある。
本稿では,アクションクリッピングによる行動規則化下での2段階の学習手法を提案する。
本手法は,第2学習段階における状態行動を無視して,より高い学習効率を実現する。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - Expanding continual few-shot learning benchmarks to include recognition
of specific instances [0.0]
継続的な学習と数発の学習は、より広範な機械学習(ML)機能に向けて進む上で重要なフロンティアである。
1つの例外は、Antoniou et al. arXiv:2004.11967の連続的な数発学習フレームワークである。
CFSLを標準連続学習実験に匹敵するように修正する。
第二に、クラスの特定のインスタンスの認識を必要とする「インスタンステスト」を導入する。
論文 参考訳(メタデータ) (2022-08-26T06:32:55Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Equivariant Reinforcement Learning for Quadrotor UAV [0.9065034043031664]
本稿では, 四輪無人航空機の同変強化学習フレームワークを提案する。
本研究では,訓練に必要な状態の次元を1つ減らし,強化学習のサンプリング効率を大幅に向上させるように,四元子力学の等価性を同定する。
論文 参考訳(メタデータ) (2022-06-02T18:17:29Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Trap of Feature Diversity in the Learning of MLPs [13.530122754551885]
多層パーセプトロン(MLP)の学習における二相現象
第一段階では、トレーニング損失は著しく減少しないが、異なるサンプル間の特徴の類似性が増加し、特徴の多様性が損なわれる。
本研究では,2相現象を排除し,特徴量の減少を回避し,トレーニングプロセスを高速化する2つの正規化操作を提案する。
論文 参考訳(メタデータ) (2021-12-02T04:42:26Z) - Continuous Control With Ensemble Deep Deterministic Policy Gradients [3.3465375629622502]
我々は,OpenAI Gym MuJoCoの継続的制御タスクに対して,ED2(Ensemble Deep Deterministic Policy Gradients)が最先端の結果をもたらす方法を示す。
実用面では、ED2は概念的には単純で、コーディングが容易で、既存の深層強化学習ツールボックス以外の知識を必要としない。
論文 参考訳(メタデータ) (2021-11-30T13:28:13Z) - Dual Learning: Theoretical Study and an Algorithmic Extension [168.0485041314289]
本稿では,新たな領域からのフィードバック信号を活用してマッピングの質を向上させる多段階二重学習を提案する。
マルチステップのデュアルラーニングは、穏やかな条件下での標準的なデュアルラーニングの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-05-17T12:14:35Z) - Few-Shot Learning as Domain Adaptation: Algorithm and Analysis [120.75020271706978]
わずかながらの学習は、目に見えないクラスを認識するために、目に見えないクラスから学んだ事前知識を使用する。
このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。
メタラーニングフレームワークにおいて、そのようなドメインシフト問題に明示的に対処するために、注意を向けたプロトタイプドメイン適応ネットワーク(DAPNA)を提案する。
論文 参考訳(メタデータ) (2020-02-06T01:04:53Z) - Reinforcement Learning via Fenchel-Rockafellar Duality [97.86417365464068]
凸双対性の基本概念を概観し、非常に一般的で非常に有用なフェンシェル・ロッカフェラー双対性に焦点をあてる。
この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬など、さまざまな強化学習設定にどのように適用できるかを要約する。
論文 参考訳(メタデータ) (2020-01-07T02:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。