論文の概要: ARC -- Actor Residual Critic for Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2206.02095v1
- Date: Sun, 5 Jun 2022 04:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 12:09:25.020113
- Title: ARC -- Actor Residual Critic for Adversarial Imitation Learning
- Title(参考訳): ARC -- 敵対的模倣学習のためのアクター残酷批判
- Authors: Ankur Deka, Changliu Liu, Katia Sycara
- Abstract要約: ARC支援によるAILは、シミュレーションされた連続制御および実際のロボット操作タスクにおいて、標準のAILよりも優れていることを示す。
ARCアルゴリズムは実装が簡単で、ACアルゴリズムで既存のAIL実装に組み込むことができる。
- 参考スコア(独自算出の注目度): 3.4806267677524896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial Imitation Learning (AIL) is a class of popular state-of-the-art
Imitation Learning algorithms where an artificial adversary's misclassification
is used as a reward signal and is optimized by any standard Reinforcement
Learning (RL) algorithm. Unlike most RL settings, the reward in AIL is
differentiable but model-free RL algorithms do not make use of this property to
train a policy. In contrast, we leverage the differentiability property of the
AIL reward function and formulate a class of Actor Residual Critic (ARC) RL
algorithms that draw a parallel to the standard Actor-Critic (AC) algorithms in
RL literature and uses a residual critic, C function (instead of the standard Q
function) to approximate only the discounted future return (excluding the
immediate reward). ARC algorithms have similar convergence properties as the
standard AC algorithms with the additional advantage that the gradient through
the immediate reward is exact. For the discrete (tabular) case with finite
states, actions, and known dynamics, we prove that policy iteration with $C$
function converges to an optimal policy. In the continuous case with function
approximation and unknown dynamics, we experimentally show that ARC aided AIL
outperforms standard AIL in simulated continuous-control and real robotic
manipulation tasks. ARC algorithms are simple to implement and can be
incorporated into any existing AIL implementation with an AC algorithm.
- Abstract(参考訳): Adversarial Imitation Learning (AIL)は、一般的な最先端のImitation Learningアルゴリズムのクラスであり、人工敵の誤分類を報酬信号として使用し、標準的なReinforcement Learning (RL)アルゴリズムによって最適化される。
ほとんどのRL設定とは異なり、AILの報酬は微分可能であるが、モデルなしのRLアルゴリズムはポリシーのトレーニングにこのプロパティを使用しない。
対照的に、AIL報酬関数の微分可能性を利用し、RL文学における標準的なアクター・クリティカル(AC)アルゴリズムと平行に描画するアクター・残留批評家(ARC)RLアルゴリズムのクラスを定式化し、(標準Q関数の代わりに)残留批評家C関数を用いて、割引後の戻り値のみを近似する(即時報酬を除く)。
ARCアルゴリズムは標準のACアルゴリズムと同様の収束特性を持ち、即時報酬の勾配が正確であるという利点がある。
有限状態、作用、既知のダイナミクスを持つ離散(表式)の場合、$c$関数を持つポリシーイテレーションが最適なポリシーに収束することを証明する。
関数近似と未知ダイナミクスの連続例では、ARCがAILを補助し、シミュレーションされた連続制御および実ロボット操作タスクにおいて標準のAILより優れていることを示す。
ARCアルゴリズムは実装が簡単であり、ACアルゴリズムによって既存のAIL実装に組み込むことができる。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。