論文の概要: An Adversarially-Learned Turing Test for Dialog Generation Models
- arxiv url: http://arxiv.org/abs/2104.08231v1
- Date: Fri, 16 Apr 2021 17:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:24:12.518330
- Title: An Adversarially-Learned Turing Test for Dialog Generation Models
- Title(参考訳): 対話生成モデルに対する逆学習チューリングテスト
- Authors: Xiang Gao, Yizhe Zhang, Michel Galley, Bill Dolan
- Abstract要約: 本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
- 参考スコア(独自算出の注目度): 45.991035017908594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design of better automated dialogue evaluation metrics offers the
potential of accelerate evaluation research on conversational AI. However,
existing trainable dialogue evaluation models are generally restricted to
classifiers trained in a purely supervised manner, which suffer a significant
risk from adversarial attacking (e.g., a nonsensical response that enjoys a
high classification score). To alleviate this risk, we propose an adversarial
training approach to learn a robust model, ATT (Adversarial Turing Test), that
discriminates machine-generated responses from human-written replies. In
contrast to previous perturbation-based methods, our discriminator is trained
by iteratively generating unrestricted and diverse adversarial examples using
reinforcement learning. The key benefit of this unrestricted adversarial
training approach is allowing the discriminator to improve robustness in an
iterative attack-defense game. Our discriminator shows high accuracy on strong
attackers including DialoGPT and GPT-3.
- Abstract(参考訳): より良い対話評価指標の設計は、対話型AIにおける評価研究を加速する可能性を提供する。
しかし、既存の訓練可能な対話評価モデルは、通常、純粋に監督された方法で訓練された分類者に限定され、敵の攻撃(例えば、高い分類スコアを享受する非感覚的な反応)による重大なリスクを被る。
このリスクを軽減するために,人間による応答から機械による応答を識別する頑健なモデルATT(Adversarial Turing Test)の学習手法を提案する。
従来の摂動法とは対照的に,この判別器は強化学習を用いて非制限的かつ多様な逆例を反復的に生成することによって訓練される。
この制限のない敵対的訓練アプローチの鍵となる利点は、反復的な攻撃防御ゲームにおいて、判別者がロバスト性を改善することである。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
関連論文リスト
- Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - Class-Aware Domain Adaptation for Improving Adversarial Robustness [27.24720754239852]
学習データに敵の例を注入することにより,ネットワークを訓練するための敵の訓練が提案されている。
そこで本研究では,対人防御のための新しいクラスアウェアドメイン適応法を提案する。
論文 参考訳(メタデータ) (2020-05-10T03:45:19Z) - EnsembleGAN: Adversarial Learning for Retrieval-Generation Ensemble
Model on Short-Text Conversation [37.80290058812499]
アンサンブルGANは、オープンドメイン会話シナリオにおいて、検索世代アンサンブルモデルを強化するための逆学習フレームワークである。
言語モデルのようなジェネレータ、ランカジェネレータ、ランカディミネーターで構成されている。
論文 参考訳(メタデータ) (2020-04-30T05:59:12Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。