論文の概要: Lagrangian Duality in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.09998v3
- Date: Sat, 25 Jul 2020 01:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 10:11:44.704349
- Title: Lagrangian Duality in Reinforcement Learning
- Title(参考訳): 強化学習におけるラグランジュ双対性
- Authors: Pranay Pasula
- Abstract要約: 本稿では,TRPO,A3C,GAILなど,多種多様な強化学習作業に双対性がどのように関与しているかを示す。
特に、価値反復や動的プログラミングが使われる場合、強化学習では双対性は珍しくないことが示されます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although duality is used extensively in certain fields, such as supervised
learning in machine learning, it has been much less explored in others, such as
reinforcement learning (RL). In this paper, we show how duality is involved in
a variety of RL work, from that which spearheaded the field, such as Richard
Bellman's value iteration, to that which was done within just the past few
years yet has already had significant impact, such as TRPO, A3C, and GAIL. We
show that duality is not uncommon in reinforcement learning, especially when
value iteration, or dynamic programming, is used or when first or second order
approximations are made to transform initially intractable problems into
tractable convex programs.
- Abstract(参考訳): 双対性は、機械学習の教師あり学習など特定の分野で広く使われているが、強化学習(RL)など、他の分野ではあまり研究されていない。
本稿では,リヒャルト・ベルマン(Richard Bellman)の値反復のような分野を先導した分野から,TRPO,A3C,GAILといった過去数年間に実施された分野まで,多種多様なRL作業に双対性がどのように関与しているかを示す。
強化学習において、特に値反復や動的プログラミングが用いられる場合や、初等または二次近似が初期の難解な問題を扱いやすい凸プログラムに変換する場合において、双対性は珍しくないことが示されている。
関連論文リスト
- The Role of Deep Learning Regularizations on Actors in Offline RL [1.2744523252873352]
ドロップアウト、層正規化、ウェイト崩壊といったディープラーニング正規化技術は、現代の人工ニューラルネットワークの構築において広く採用されている。
本研究では,オフライン強化学習(RL)アルゴリズムにおけるアクターネットワークへの標準正規化手法の適用が,平均6%の改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2024-09-11T20:35:29Z) - Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Expanding continual few-shot learning benchmarks to include recognition of specific instances [0.0]
継続的な学習と数発の学習は、より広範な機械学習(ML)機能に向けた進歩の重要なフロンティアである。
最初の例の1つは、Antoniou et al. arXiv:2004.11967 の連続的な数発学習フレームワークであった。
我々はCFSLを2つの方法で拡張し、現実の環境での知的エージェントの振る舞いにおいて重要な、幅広い課題を捉える。
論文 参考訳(メタデータ) (2022-08-26T06:32:55Z) - Trap of Feature Diversity in the Learning of MLPs [13.530122754551885]
多層パーセプトロン(MLP)の学習における二相現象
第一段階では、トレーニング損失は著しく減少しないが、異なるサンプル間の特徴の類似性が増加し、特徴の多様性が損なわれる。
本研究では,2相現象を排除し,特徴量の減少を回避し,トレーニングプロセスを高速化する2つの正規化操作を提案する。
論文 参考訳(メタデータ) (2021-12-02T04:42:26Z) - Dual Learning: Theoretical Study and an Algorithmic Extension [168.0485041314289]
本稿では,新たな領域からのフィードバック信号を活用してマッピングの質を向上させる多段階二重学習を提案する。
マルチステップのデュアルラーニングは、穏やかな条件下での標準的なデュアルラーニングの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-05-17T12:14:35Z) - Few-Shot Learning as Domain Adaptation: Algorithm and Analysis [120.75020271706978]
わずかながらの学習は、目に見えないクラスを認識するために、目に見えないクラスから学んだ事前知識を使用する。
このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。
メタラーニングフレームワークにおいて、そのようなドメインシフト問題に明示的に対処するために、注意を向けたプロトタイプドメイン適応ネットワーク(DAPNA)を提案する。
論文 参考訳(メタデータ) (2020-02-06T01:04:53Z) - Reinforcement Learning via Fenchel-Rockafellar Duality [97.86417365464068]
凸双対性の基本概念を概観し、非常に一般的で非常に有用なフェンシェル・ロッカフェラー双対性に焦点をあてる。
この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬など、さまざまな強化学習設定にどのように適用できるかを要約する。
論文 参考訳(メタデータ) (2020-01-07T02:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。