論文の概要: Authorship Obfuscation in Multilingual Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2401.07867v1
- Date: Mon, 15 Jan 2024 17:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:25:42.075872
- Title: Authorship Obfuscation in Multilingual Machine-Generated Text Detection
- Title(参考訳): 多言語機械生成テキスト検出におけるオーサシップ難読化
- Authors: Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel
Lucas, Michiharu Yamashita, Nafis Irtiza Tripto, Dongwon Lee, Jakub Simko,
Maria Bielikova
- Abstract要約: オーサシップ難読化(AO)法は、機械生成テキスト(MGT)検出を回避できる。
我々は、11言語でよく知られた10のAO法と37のMGT検出法をベンチマークした。
その結果, ホモグリフ攻撃が特に成功した全てのテスト言語において, テストされたAOメソッドが検出回避を引き起こす可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.847076316223723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality text generation capability of latest Large Language Models
(LLMs) causes concerns about their misuse (e.g., in massive generation/spread
of disinformation). Machine-generated text (MGT) detection is important to cope
with such threats. However, it is susceptible to authorship obfuscation (AO)
methods, such as paraphrasing, which can cause MGTs to evade detection. So far,
this was evaluated only in monolingual settings. Thus, the susceptibility of
recently proposed multilingual detectors is still unknown. We fill this gap by
comprehensively benchmarking the performance of 10 well-known AO methods,
attacking 37 MGT detection methods against MGTs in 11 languages (i.e., 10
$\times$ 37 $\times$ 11 = 4,070 combinations). We also evaluate the effect of
data augmentation on adversarial robustness using obfuscated texts. The results
indicate that all tested AO methods can cause detection evasion in all tested
languages, where homoglyph attacks are especially successful.
- Abstract(参考訳): 最新のLarge Language Models (LLM) の高品質なテキスト生成能力は、その誤用(例えば、大量生成や偽情報の拡散)に対する懸念を引き起こす。
このような脅威に対処するためには、機械生成テキスト(MGT)検出が重要である。
しかし、Paraphrasingのようなオーサリング難読化(AO)法には感受性があり、MGTが検出を回避できる可能性がある。
今のところ、これは単言語環境でのみ評価されている。
したがって、最近提案された多言語検出器の感受性はまだ不明である。
このギャップを埋めるために、よく知られた10のAOメソッドのパフォーマンスを総合的にベンチマークし、11言語(例えば10$\times$37 $\times$ 11 = 4,070コンビネーション)のMGTに対して37のMGT検出メソッドを攻撃した。
また,データ拡張が難読テキストを用いた逆ロバスト性に与える影響も評価した。
その結果, ホモグリフ攻撃が特に成功した全ての試験言語において, テストされたAOメソッドが検出回避を引き起こす可能性が示唆された。
関連論文リスト
- Evading AI-Generated Content Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。