論文の概要: Healing Unsafe Dialogue Responses with Weak Supervision Signals
- arxiv url: http://arxiv.org/abs/2305.15757v1
- Date: Thu, 25 May 2023 06:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:06:26.293518
- Title: Healing Unsafe Dialogue Responses with Weak Supervision Signals
- Title(参考訳): 弱い監督信号による安全でない対話応答の治癒
- Authors: Zi Liang, Pinghui Wang, Ruofei Zhang, Shuo Zhang, Xiaofan Ye Yi Huang,
Junlan Feng
- Abstract要約: 非教師付き擬似ラベルサンプリング手法であるTEMPは、潜在的な安全な応答を自動的に割り当てる。
TEMP法では,複数のクラスタに応答し,複数のラベルを適応的にシャープなサンプリング戦略でサンプリングする。
chitchatとタスク指向対話の実験では、TEMPは監督信号の弱い最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 24.749797310489253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen increasing concerns about the unsafe response
generation of large-scale dialogue systems, where agents will learn offensive
or biased behaviors from the real-world corpus. Some methods are proposed to
address the above issue by detecting and replacing unsafe training examples in
a pipeline style. Though effective, they suffer from a high annotation cost and
adapt poorly to unseen scenarios as well as adversarial attacks. Besides, the
neglect of providing safe responses (e.g. simply replacing with templates) will
cause the information-missing problem of dialogues. To address these issues, we
propose an unsupervised pseudo-label sampling method, TEMP, that can
automatically assign potential safe responses. Specifically, our TEMP method
groups responses into several clusters and samples multiple labels with an
adaptively sharpened sampling strategy, inspired by the observation that unsafe
samples in the clusters are usually few and distribute in the tail. Extensive
experiments in chitchat and task-oriented dialogues show that our TEMP
outperforms state-of-the-art models with weak supervision signals and obtains
comparable results under unsupervised learning settings.
- Abstract(参考訳): 近年、エージェントが現実世界のコーパスから攻撃的または偏見的な行動を学ぶ大規模対話システムの安全でない応答生成に対する懸念が高まっている。
パイプラインスタイルの安全でないトレーニング例を検出して置き換えることで、上記の問題に対処する手法が提案されている。
効果はあるものの、アノテーションのコストが高く、目に見えないシナリオや敵の攻撃にうまく適応できない。
さらに、安全な応答を提供することの無視(例:単にテンプレートに置き換える)は、対話の情報を欠く問題を引き起こす。
これらの問題に対処するために,潜在的安全な応答を自動的に割り当てる,教師なし擬似ラベルサンプリング手法 TEMP を提案する。
具体的には,複数のクラスタに応答をグループ化し,適応的にシャープなサンプリング戦略で複数のラベルをサンプリングする。
chitchatとタスク指向の対話における広範囲な実験は、我々のtemが弱い監督信号を持つ最先端のモデルよりも優れており、教師なしの学習環境下で同等の結果を得ることを示している。
関連論文リスト
- Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - Contactless Fingerprint Biometric Anti-Spoofing: An Unsupervised Deep
Learning Approach [0.0]
本稿では、教師なしオートエンコーダと畳み込みブロックアテンションモジュールを組み合わせた革新的なアンチスプーフィング手法を提案する。
このスキームは平均で0.96%のBPCERを達成し、様々な種類のスプーフサンプルを含むプレゼンテーション攻撃では1.6%のAPCERを達成している。
論文 参考訳(メタデータ) (2023-11-07T17:19:59Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Identifying Adversarially Attackable and Robust Samples [1.4213973379473654]
アドリアックは、入力サンプルに小さな、知覚不能な摂動を挿入し、ディープラーニングモデルの出力に大きな、望ましくない変化を引き起こす。
本研究は, 対人攻撃に最も影響を受けやすいサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。
本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。
論文 参考訳(メタデータ) (2023-01-30T13:58:14Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - An Adversarially-Learned Turing Test for Dialog Generation Models [45.991035017908594]
本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
論文 参考訳(メタデータ) (2021-04-16T17:13:14Z) - Investigating Robustness of Adversarial Samples Detection for Automatic
Speaker Verification [78.51092318750102]
本研究は,ASVシステムに対して,別個の検出ネットワークによる敵攻撃から防御することを提案する。
VGGライクな二分分類検出器を導入し、対向サンプルの検出に有効であることが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。