論文の概要: Mutation-Based Adversarial Attacks on Neural Text Detectors
- arxiv url: http://arxiv.org/abs/2302.05794v1
- Date: Sat, 11 Feb 2023 22:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:34:37.429965
- Title: Mutation-Based Adversarial Attacks on Neural Text Detectors
- Title(参考訳): 変異に基づくニューラルテキスト検出器の逆攻撃
- Authors: Gongbo Liang, Jesus Guerrero, Izzat Alsmadi
- Abstract要約: そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。
このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
- 参考スコア(独自算出の注目度): 1.5101132008238316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural text detectors aim to decide the characteristics that distinguish
neural (machine-generated) from human texts. To challenge such detectors,
adversarial attacks can alter the statistical characteristics of the generated
text, making the detection task more and more difficult. Inspired by the
advances of mutation analysis in software development and testing, in this
paper, we propose character- and word-based mutation operators for generating
adversarial samples to attack state-of-the-art natural text detectors. This
falls under white-box adversarial attacks. In such attacks, attackers have
access to the original text and create mutation instances based on this
original text. The ultimate goal is to confuse machine learning models and
classifiers and decrease their prediction accuracy.
- Abstract(参考訳): ニューラルテキスト検出器は、人間のテキストとニューラル(機械生成)を区別する特徴を決定することを目的としている。
このような検出に挑戦するために、敵攻撃は生成されたテキストの統計的特性を変えることができ、検出タスクをますます難しくする。
ソフトウェア開発およびテストにおける突然変異解析の進歩に触発され,本論文では,逆数サンプルを生成するための文字・単語ベースの突然変異演算子を提案する。
これはホワイトボックスの敵攻撃に該当する。
このような攻撃では、攻撃者は原文にアクセスし、原文に基づいて突然変異インスタンスを作成する。
究極の目標は、機械学習モデルと分類器を混同し、予測精度を下げることである。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Efficient Black-Box Adversarial Attacks on Neural Text Detectors [1.223779595809275]
本稿では,GPT-3.5が生成したテキストを人間の目には見えないが,ニューラルテキスト検出装置による誤分類を引き起こす3つの簡単な方法について検討する。
その結果,特にパラメータ調整や文字レベルの変異が有効な方法であることが示唆された。
論文 参考訳(メタデータ) (2023-11-03T12:29:32Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - Adversarial Robustness of Neural-Statistical Features in Detection of
Generative Transformers [6.209131728799896]
コンピュータ生成テキストの検出能力に対するニューラルおよび非ニューラルアプローチの評価を行った。
統計学的特徴は神経的特徴に劣るが, 統計学的特徴は追加の対向的堅牢性をもたらす。
我々は,逆テキスト品質の人的判断のための代用尺度として$Delta$MAUVEを考案した。
論文 参考訳(メタデータ) (2022-03-02T16:46:39Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z) - Attacking Neural Text Detectors [0.0]
本稿では,ニューラルテキスト検出器に対するブラックボックス攻撃の2つのクラスについて述べる。
ホモグリフとミススペル攻撃は、ニューラルテキスト上の一般的なニューラルテキスト検出器のリコールを97.44%から0.26%、22.68%へと減少させる。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
論文 参考訳(メタデータ) (2020-02-19T04:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。