Fugu-MT 論文翻訳(概要): Lagrangian Duality in Reinforcement Learning

論文の概要: Lagrangian Duality in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2007.09998v3
Date: Sat, 25 Jul 2020 01:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 10:11:44.704349
Title: Lagrangian Duality in Reinforcement Learning
Title（参考訳）: 強化学習におけるラグランジュ双対性
Authors: Pranay Pasula
Abstract要約: 本稿では,TRPO,A3C,GAILなど,多種多様な強化学習作業に双対性がどのように関与しているかを示す。特に、価値反復や動的プログラミングが使われる場合、強化学習では双対性は珍しくないことが示されます。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although duality is used extensively in certain fields, such as supervised learning in machine learning, it has been much less explored in others, such as reinforcement learning (RL). In this paper, we show how duality is involved in a variety of RL work, from that which spearheaded the field, such as Richard Bellman's value iteration, to that which was done within just the past few years yet has already had significant impact, such as TRPO, A3C, and GAIL. We show that duality is not uncommon in reinforcement learning, especially when value iteration, or dynamic programming, is used or when first or second order approximations are made to transform initially intractable problems into tractable convex programs.
Abstract（参考訳）: 双対性は、機械学習の教師あり学習など特定の分野で広く使われているが、強化学習(RL)など、他の分野ではあまり研究されていない。本稿では,リヒャルト・ベルマン(Richard Bellman)の値反復のような分野を先導した分野から,TRPO,A3C,GAILといった過去数年間に実施された分野まで,多種多様なRL作業に双対性がどのように関与しているかを示す。強化学習において、特に値反復や動的プログラミングが用いられる場合や、初等または二次近似が初期の難解な問題を扱いやすい凸プログラムに変換する場合において、双対性は珍しくないことが示されている。

関連論文リスト

Forget Me Not: Fighting Local Overfitting with Knowledge Fusion and Distillation [6.7864586321550595]
検証データ上での深部モデルの忘れ度を計測する新しいスコアを導入する。従来の過度な過度なオーバーフィッティングがなくても、局所的な過度な過度なオーバーフィッティングが発生することを示す。次に、単一のモデルのトレーニング履歴を活用して、忘れられた知識を回復し、保持する2段階のアプローチを導入します。
論文参考訳（メタデータ） (2025-07-11T15:37:24Z)
Addressing Imbalanced Domain-Incremental Learning through Dual-Balance Collaborative Experts [59.615381619866284]
ドメイン・インクリメンタル・ラーニング(Domain-Incremental Learning, DIL)は、非定常環境における連続的な学習に焦点を当てる。 DILは、ドメイン内のクラス不均衡とドメイン間のクラス分散シフトという、2つの重要な課題に直面している。これらの課題を克服するために、Dual-Balance Collaborative Experts (DCE)フレームワークを紹介します。
論文参考訳（メタデータ） (2025-07-09T17:57:07Z)
A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクを共同で扱うマルチタスク学習のための新しい2段階学習フレームワークを提案する。我々は,分類と回帰が密結合した物体検出,電子健康記録解析の2つの課題に対して,我々の枠組みを検証した。
論文参考訳（メタデータ） (2024-10-21T07:44:57Z)
The Role of Deep Learning Regularizations on Actors in Offline RL [1.2744523252873352]
ドロップアウト、層正規化、ウェイト崩壊といったディープラーニング正規化技術は、現代の人工ニューラルネットワークの構築において広く採用されている。本研究では,オフライン強化学習(RL)アルゴリズムにおけるアクターネットワークへの標準正規化手法の適用が,平均6%の改善をもたらすことを実証的に示す。
論文参考訳（メタデータ） (2024-09-11T20:35:29Z)
Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文参考訳（メタデータ） (2024-08-25T23:46:35Z)
Unveiling Multiple Descents in Unsupervised Autoencoders [13.180761892449736]
非線形非教師なしオートエンコーダで二重・三重降下を観測できることを初めて示す。合成データセットと実データセットの両方に関する広範な実験を通して、モデルワイド、エポックワイド、サンプルワイドの二重降下を明らかにする。
論文参考訳（メタデータ） (2024-06-17T16:24:23Z)
Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文参考訳（メタデータ） (2024-03-20T17:28:17Z)
Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文参考訳（メタデータ） (2024-03-18T14:55:45Z)
Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文参考訳（メタデータ） (2024-03-15T16:51:24Z)
Expanding continual few-shot learning benchmarks to include recognition of specific instances [0.0]
継続的な学習と数発の学習は、より広範な機械学習(ML)機能に向けた進歩の重要なフロンティアである。最初の例の1つは、Antoniou et al. arXiv:2004.11967 の連続的な数発学習フレームワークであった。我々はCFSLを2つの方法で拡張し、現実の環境での知的エージェントの振る舞いにおいて重要な、幅広い課題を捉える。
論文参考訳（メタデータ） (2022-08-26T06:32:55Z)
Trap of Feature Diversity in the Learning of MLPs [13.530122754551885]
多層パーセプトロン(MLP)の学習における二相現象第一段階では、トレーニング損失は著しく減少しないが、異なるサンプル間の特徴の類似性が増加し、特徴の多様性が損なわれる。本研究では,2相現象を排除し,特徴量の減少を回避し,トレーニングプロセスを高速化する2つの正規化操作を提案する。
論文参考訳（メタデータ） (2021-12-02T04:42:26Z)
Dual Learning: Theoretical Study and an Algorithmic Extension [168.0485041314289]
本稿では,新たな領域からのフィードバック信号を活用してマッピングの質を向上させる多段階二重学習を提案する。マルチステップのデュアルラーニングは、穏やかな条件下での標準的なデュアルラーニングの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2020-05-17T12:14:35Z)
Few-Shot Learning as Domain Adaptation: Algorithm and Analysis [120.75020271706978]
わずかながらの学習は、目に見えないクラスを認識するために、目に見えないクラスから学んだ事前知識を使用する。このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。メタラーニングフレームワークにおいて、そのようなドメインシフト問題に明示的に対処するために、注意を向けたプロトタイプドメイン適応ネットワーク(DAPNA)を提案する。
論文参考訳（メタデータ） (2020-02-06T01:04:53Z)
Reinforcement Learning via Fenchel-Rockafellar Duality [97.86417365464068]
凸双対性の基本概念を概観し、非常に一般的で非常に有用なフェンシェル・ロッカフェラー双対性に焦点をあてる。この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬など、さまざまな強化学習設定にどのように適用できるかを要約する。
論文参考訳（メタデータ） (2020-01-07T02:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。