Fugu-MT 論文翻訳(概要): Rethinking Learning Dynamics in RL using Adversarial Networks

論文の概要: Rethinking Learning Dynamics in RL using Adversarial Networks

arxiv url: http://arxiv.org/abs/2201.11783v1
Date: Thu, 27 Jan 2022 19:51:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-01 11:35:11.333570
Title: Rethinking Learning Dynamics in RL using Adversarial Networks
Title（参考訳）: 敵対的ネットワークを用いたRLにおける学習ダイナミクスの再考
Authors: Ramnath Kumar, Tristan Deleu and Yoshua Bengio
Abstract要約: 本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
参考スコア（独自算出の注目度）: 79.56118674435844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a learning mechanism for reinforcement learning of closely related skills parameterized via a skill embedding space. Our approach is grounded on the intuition that nothing makes you learn better than a coevolving adversary. The main contribution of our work is to formulate an adversarial training regime for reinforcement learning with the help of entropy-regularized policy gradient formulation. We also adapt existing measures of causal attribution to draw insights from the skills learned. Our experiments demonstrate that the adversarial process leads to a better exploration of multiple solutions and understanding the minimum number of different skills necessary to solve a given set of tasks.
Abstract（参考訳）: 本稿では,スキル埋め込み空間を介してパラメータ化される密接に関連するスキルの強化学習のための学習機構を提案する。私たちのアプローチは、共進化する敵よりも学習を妨げないという直感に基づくものです。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。我々はまた、既存の因果関係の尺度を適応させ、学習したスキルから洞察を引き出す。実験により, 対向過程が複数の解を探索し, 与えられた課題を解くのに必要なスキルの最小限の数の理解に繋がることを示した。

関連論文リスト

Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Variational Curriculum Reinforcement Learning for Unsupervised Discovery of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文参考訳（メタデータ） (2023-10-30T10:34:25Z)
Transferring Knowledge for Reinforcement Learning in Contact-Rich Manipulation [10.219833196479142]
複数のスキルの前提を活かして、類似したタスクのファミリー内で知識を伝達するという課題に対処する。提案手法は, 先行タスク毎の実証軌道から, スキル埋め込みを表す潜在行動空間を学習する。我々は,ペグ・イン・ホール・イン・イン・イン・イン・イン・イン・イン・イン・イン・インサート・タスクのセットを用いて本手法の評価を行い,トレーニング中に遭遇したことのない新しいタスクへのより良い一般化を実証した。
論文参考訳（メタデータ） (2022-09-19T10:31:13Z)
Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。知識の抽出と知識の記憶という2つの側面から問題に取り組む。提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文参考訳（メタデータ） (2022-08-27T09:27:36Z)
Unsupervised Reinforcement Learning for Transferable Manipulation Skill Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2022-04-29T06:57:46Z)
Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。転校学習は強化学習が直面する様々な課題に対処するために生まれました
論文参考訳（メタデータ） (2020-09-16T18:38:54Z)
Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文参考訳（メタデータ） (2020-09-10T14:16:58Z)
Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文参考訳（メタデータ） (2020-06-12T06:00:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。