論文の概要: Authorship Obfuscation in Multilingual Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2401.07867v1
- Date: Mon, 15 Jan 2024 17:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:25:42.075872
- Title: Authorship Obfuscation in Multilingual Machine-Generated Text Detection
- Title(参考訳): 多言語機械生成テキスト検出におけるオーサシップ難読化
- Authors: Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel
Lucas, Michiharu Yamashita, Nafis Irtiza Tripto, Dongwon Lee, Jakub Simko,
Maria Bielikova
- Abstract要約: オーサシップ難読化(AO)法は、機械生成テキスト(MGT)検出を回避できる。
我々は、11言語でよく知られた10のAO法と37のMGT検出法をベンチマークした。
その結果, ホモグリフ攻撃が特に成功した全てのテスト言語において, テストされたAOメソッドが検出回避を引き起こす可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.847076316223723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality text generation capability of latest Large Language Models
(LLMs) causes concerns about their misuse (e.g., in massive generation/spread
of disinformation). Machine-generated text (MGT) detection is important to cope
with such threats. However, it is susceptible to authorship obfuscation (AO)
methods, such as paraphrasing, which can cause MGTs to evade detection. So far,
this was evaluated only in monolingual settings. Thus, the susceptibility of
recently proposed multilingual detectors is still unknown. We fill this gap by
comprehensively benchmarking the performance of 10 well-known AO methods,
attacking 37 MGT detection methods against MGTs in 11 languages (i.e., 10
$\times$ 37 $\times$ 11 = 4,070 combinations). We also evaluate the effect of
data augmentation on adversarial robustness using obfuscated texts. The results
indicate that all tested AO methods can cause detection evasion in all tested
languages, where homoglyph attacks are especially successful.
- Abstract(参考訳): 最新のLarge Language Models (LLM) の高品質なテキスト生成能力は、その誤用(例えば、大量生成や偽情報の拡散)に対する懸念を引き起こす。
このような脅威に対処するためには、機械生成テキスト(MGT)検出が重要である。
しかし、Paraphrasingのようなオーサリング難読化(AO)法には感受性があり、MGTが検出を回避できる可能性がある。
今のところ、これは単言語環境でのみ評価されている。
したがって、最近提案された多言語検出器の感受性はまだ不明である。
このギャップを埋めるために、よく知られた10のAOメソッドのパフォーマンスを総合的にベンチマークし、11言語(例えば10$\times$37 $\times$ 11 = 4,070コンビネーション)のMGTに対して37のMGT検出メソッドを攻撃した。
また,データ拡張が難読テキストを用いた逆ロバスト性に与える影響も評価した。
その結果, ホモグリフ攻撃が特に成功した全ての試験言語において, テストされたAOメソッドが検出回避を引き起こす可能性が示唆された。
関連論文リスト
- ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。
本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文 参考訳(メタデータ) (2024-12-06T15:56:11Z) - SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。