論文の概要: Combating False Negatives in Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2002.00412v1
- Date: Sun, 2 Feb 2020 14:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 19:49:05.167757
- Title: Combating False Negatives in Adversarial Imitation Learning
- Title(参考訳): 対人模倣学習における虚偽否定
- Authors: Konrad Zolna, Chitwan Saharia, Leonard Boussioux, David Yu-Tung Hui,
Maxime Chevalier-Boisvert, Dzmitry Bahdanau and Yoshua Bengio
- Abstract要約: 敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
- 参考スコア(独自算出の注目度): 67.99941805086154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In adversarial imitation learning, a discriminator is trained to
differentiate agent episodes from expert demonstrations representing the
desired behavior. However, as the trained policy learns to be more successful,
the negative examples (the ones produced by the agent) become increasingly
similar to expert ones. Despite the fact that the task is successfully
accomplished in some of the agent's trajectories, the discriminator is trained
to output low values for them. We hypothesize that this inconsistent training
signal for the discriminator can impede its learning, and consequently leads to
worse overall performance of the agent. We show experimental evidence for this
hypothesis and that the 'False Negatives' (i.e. successful agent episodes)
significantly hinder adversarial imitation learning, which is the first
contribution of this paper. Then, we propose a method to alleviate the impact
of false negatives and test it on the BabyAI environment. This method
consistently improves sample efficiency over the baselines by at least an order
of magnitude.
- Abstract(参考訳): 敵対的模倣学習では、識別器は、望ましい行動を表す専門家のデモンストレーションとエージェントのエピソードを区別するように訓練される。
しかし、訓練された政策がより成功することを学ぶと、ネガティブな例(エージェントによって生成されるもの)は、専門家に近づきつつある。
エージェントの軌道の一部でタスクが成功しているにもかかわらず、識別器は低い値を出力するように訓練される。
判別器のこの一貫性のない訓練信号は学習を妨げる可能性があり、結果としてエージェントの全体的な性能が悪化する。
この仮説の実験的証拠と「偽陰性」(即ちエージェントエピソードの成功)が敵の模倣学習を著しく阻害していることが本論文の最初の貢献である。
そこで我々は,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
この方法は、ベースライン上のサンプル効率を少なくとも1桁改善する。
関連論文リスト
- Quantile-based Maximum Likelihood Training for Outlier Detection [5.902139925693801]
我々は,推定時の外乱分離を改善するために,不整合分布を学習するための量子化に基づく最大極大目標を提案する。
本手法は, 事前学習した識別特徴に正規化フローを適合させ, 評価されたログ類似度に応じて異常値を検出する。
論文 参考訳(メタデータ) (2023-08-20T22:27:54Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Balanced Adversarial Training: Balancing Tradeoffs between Fickleness
and Obstinacy in NLP Models [21.06607915149245]
本研究は, 標準的な対人訓練手法により, ファックル対人例に対してより脆弱なモデルが得られることを示す。
本研究では, 対外学習を取り入れて, 対外的対外的対外的対外的対外的対外的対外的対外的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対人的対
論文 参考訳(メタデータ) (2022-10-20T18:02:07Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - AdCo: Adversarial Contrast for Efficient Learning of Unsupervised
Representations from Self-Trained Negative Adversaries [55.059844800514774]
本稿では,正の問合せに対して識別が難しい表現を訓練するためのAdCoモデルを提案する。
実験により,AdCoモデルが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-11-17T05:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。