論文の概要: Policy Contrastive Imitation Learning
- arxiv url: http://arxiv.org/abs/2307.02829v1
- Date: Thu, 6 Jul 2023 07:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:55:55.023770
- Title: Policy Contrastive Imitation Learning
- Title(参考訳): 政策コントラスト模倣学習
- Authors: Jialei Huang, Zhaoheng Yin, Yingdong Hu, Yang Gao
- Abstract要約: この問題を解決するために,政策コントラスト学習(PCIL)と呼ばれる新しい手法を提案する。
PCILは異なるポリシーをアンカーすることでコントラスト表現空間を学習し、スムーズなコサイン類似性に基づく報酬を生成する。
DeepMind Control スイートの実証実験により,PCIL が最先端の性能を達成できることが実証された。
- 参考スコア(独自算出の注目度): 6.760960482418417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial imitation learning (AIL) is a popular method that has recently
achieved much success. However, the performance of AIL is still unsatisfactory
on the more challenging tasks. We find that one of the major reasons is due to
the low quality of AIL discriminator representation. Since the AIL
discriminator is trained via binary classification that does not necessarily
discriminate the policy from the expert in a meaningful way, the resulting
reward might not be meaningful either. We propose a new method called Policy
Contrastive Imitation Learning (PCIL) to resolve this issue. PCIL learns a
contrastive representation space by anchoring on different policies and
generates a smooth cosine-similarity-based reward. Our proposed representation
learning objective can be viewed as a stronger version of the AIL objective and
provide a more meaningful comparison between the agent and the policy. From a
theoretical perspective, we show the validity of our method using the
apprenticeship learning framework. Furthermore, our empirical evaluation on the
DeepMind Control suite demonstrates that PCIL can achieve state-of-the-art
performance. Finally, qualitative results suggest that PCIL builds a smoother
and more meaningful representation space for imitation learning.
- Abstract(参考訳): 逆模倣学習(英: Adversarial mimicion learning, AIL)は、最近多くの成功を収めた人気手法である。
しかしながら、AILのパフォーマンスは、より困難なタスクにはまだ満足できません。
主な原因の1つは、AIL識別器の低品質化によるものである。
AIL判別器は、必ずしも専門家から政策を有意義に区別するとは限らないバイナリ分類によって訓練されるので、結果として得られる報酬も意味のあるものではないかもしれない。
この問題を解決するために,政策コントラスト模倣学習(PCIL)と呼ばれる新しい手法を提案する。
PCILは異なるポリシーを固定することでコントラスト表現空間を学び、スムーズなコサイン類似性に基づく報酬を生成する。
提案する表現学習目標は,ail目標のより強固なバージョンと見なすことができ,エージェントとポリシーのより有意義な比較を行うことができる。
理論的観点から,見習い学習フレームワークを用いた手法の有効性を示す。
さらに,DeepMind Control スイートの実証評価により,PCIL が最先端の性能を達成できることが実証された。
最後に、定性的な結果は、PCILが模倣学習のためのより滑らかで意味のある表現空間を構築することを示唆している。
関連論文リスト
- Adversarial Contrastive Learning via Asymmetric InfoNCE [64.42740292752069]
非対称なInfoNCEの目的と対比した場合,非対称なサンプルを不等に扱うことを提案する。
非対称的な方法では、CLと対向学習の相反する目的の悪影響を効果的に軽減することができる。
実験の結果,提案手法は既存CL法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2022-07-18T04:14:36Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Fair Contrastive Learning for Facial Attribute Classification [25.436462696033846]
公正な視覚表現学習のためのFair Supervised Contrastive Loss (FSCL)を提案する。
本稿では,教師付きコントラスト学習による不公平性を初めて分析する。
提案手法はデータバイアスの強度に頑健であり,不完全な教師付き設定で効果的に機能する。
論文 参考訳(メタデータ) (2022-03-30T11:16:18Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Off-Policy Deep Reinforcement Learning with Analogous Disentangled
Exploration [33.25932244741268]
オフ政治強化学習(英: Off-policy reinforcement learning、RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。
前者の方針は報われているが、(ほとんどの場合、決定論的な)非表現的であり、後者の課題では、対照的に、ガイド付きかつ効果的な探索を提供する表現的政策が必要である。
本稿では,この問題を緩和するために,Analogous Disentangled Actor-Critic (ADAC)を提案する。
論文 参考訳(メタデータ) (2020-02-25T08:49:11Z) - Support-weighted Adversarial Imitation Learning [39.42395724783555]
Adversarial Imitation Learning (AIL) は、実証から専門家の行動を模倣する模倣学習手法のファミリーである。
本稿では,AILアルゴリズムを拡張した汎用フレームワークであるSupport-weighted Adversarial Imitation Learning (SAIL)を提案する。
提案手法は,幅広いベンチマーク制御タスクにおいて,ベースライン法よりも性能とトレーニングの安定性が向上することを示す。
論文 参考訳(メタデータ) (2020-02-20T15:34:30Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。