論文の概要: Toxicity Detection towards Adaptability to Changing Perturbations
- arxiv url: http://arxiv.org/abs/2412.15267v1
- Date: Tue, 17 Dec 2024 05:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:55.647243
- Title: Toxicity Detection towards Adaptability to Changing Perturbations
- Title(参考訳): 摂動変化に対する適応性を考慮した毒性検出
- Authors: Hankun Kang, Jianhao Chen, Yongqi Li, Xin Miao, Mayi Xu, Ming Zhong, Yuanyuan Zhu, Tieyun Qian,
- Abstract要約: 本稿では,新しい問題,すなわち連続学習型ジェイルブレイク摂動パターンを毒性検出分野に導入する。
まず,9種類の摂動パターンによって生成された新しいデータセットを構築し,その内7つは先行作業から要約し,そのうち2つは私たちによって開発された。
次に、この新しい摂動パターン認識データセットにおける現在の手法の脆弱性を体系的に検証する。
- 参考スコア(独自算出の注目度): 21.989281174371147
- License:
- Abstract: Toxicity detection is crucial for maintaining the peace of the society. While existing methods perform well on normal toxic contents or those generated by specific perturbation methods, they are vulnerable to evolving perturbation patterns. However, in real-world scenarios, malicious users tend to create new perturbation patterns for fooling the detectors. For example, some users may circumvent the detector of large language models (LLMs) by adding `I am a scientist' at the beginning of the prompt. In this paper, we introduce a novel problem, i.e., continual learning jailbreak perturbation patterns, into the toxicity detection field. To tackle this problem, we first construct a new dataset generated by 9 types of perturbation patterns, 7 of them are summarized from prior work and 2 of them are developed by us. We then systematically validate the vulnerability of current methods on this new perturbation pattern-aware dataset via both the zero-shot and fine tuned cross-pattern detection. Upon this, we present the domain incremental learning paradigm and the corresponding benchmark to ensure the detector's robustness to dynamically emerging types of perturbed toxic text. Our code and dataset are provided in the appendix and will be publicly available at GitHub, by which we wish to offer new research opportunities for the security-relevant communities.
- Abstract(参考訳): 毒性の検出は社会の平和を維持するために不可欠である。
既存の方法は、通常の有害な内容や特定の摂動法によって生成されるものに対して良好に作用するが、摂動パターンの進化には弱い。
しかし、現実のシナリオでは、悪意のあるユーザーは検出器を騙すために新しい摂動パターンを作る傾向がある。
例えば、あるユーザは、プロンプトの先頭に 'I am a scientist' を追加することで、大きな言語モデル(LLM)の検出を回避できる。
本稿では,新しい問題,すなわち連続学習型ジェイルブレイク摂動パターンを毒性検出分野に導入する。
そこで我々はまず,9種類の摂動パターンによって生成された新しいデータセットを構築し,その内7つは先行作業から要約し,そのうち2つは私たちによって開発された。
そして、ゼロショットと微調整されたクロスパターン検出の両方を通して、この新しい摂動パターン認識データセットにおける現在の手法の脆弱性を体系的に検証する。
そこで本研究では,動的に出現する乱れた有毒テキストに対する検出者の堅牢性を確保するために,ドメインインクリメンタル学習パラダイムとそれに対応するベンチマークを提案する。
私たちのコードとデータセットは付録で提供されており、GitHubで公開されます。
関連論文リスト
- Ensuring Medical AI Safety: Explainable AI-Driven Detection and Mitigation of Spurious Model Behavior and Associated Data [14.991686165405959]
本稿では,データとモデルの両方の観点から,突発的行動を特定するための半自動フレームワークを提案する。
これにより、急激なデータポイントの検索と、関連する予測ルールを符号化するモデル回路の検出が可能になる。
4つの医療データセットを用いて,本フレームワークの適用性を示す。
論文 参考訳(メタデータ) (2025-01-23T16:39:09Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - A Robust Likelihood Model for Novelty Detection [8.766411351797883]
新規性や異常検出に対する現在のアプローチは、ディープニューラルネットワークに基づいている。
我々は、攻撃に対する防御として、新規性テストの堅牢な可能性を学ぶことを目的とした新しい事前提案を行う。
我々はまた、最先端のノベルティ検出アプローチと、それ以前のものを統合する。
論文 参考訳(メタデータ) (2023-06-06T01:02:31Z) - Few-shot Weakly-supervised Cybersecurity Anomaly Detection [1.179179628317559]
本稿では,既存の弱教師付きディープラーニング異常検出フレームワークの強化を提案する。
このフレームワークには、データ拡張、表現学習、順序回帰が含まれている。
そして、3つのベンチマークデータセット上で実装したフレームワークの性能を評価した。
論文 参考訳(メタデータ) (2023-04-15T04:37:54Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。