論文の概要: Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors
- arxiv url: http://arxiv.org/abs/2410.19230v1
- Date: Fri, 25 Oct 2024 00:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:03.446503
- Title: Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors
- Title(参考訳): マシンの人間化:LSM検出器を誤認するプロシーアタック
- Authors: Tianchun Wang, Yuanzhou Chen, Zichuan Liu, Zhanwen Chen, Haifeng Chen, Xiang Zhang, Wei Cheng,
- Abstract要約: 我々は、大規模言語モデル(LLM)を懸命に妥協するプロキシ・アタック戦略を導入する。
提案手法は, 復号相における強化学習 (RL) の微調整による小型言語モデル (SLM) を活用することで, 情報源モデルを攻撃する。
以上の結果から,プロキシアタック戦略は主要な検出器を効果的に騙し,複数のデータセットで平均70.4%のAUROC低下を招いた。
- 参考スコア(独自算出の注目度): 31.18762591875725
- License:
- Abstract: The advent of large language models (LLMs) has revolutionized the field of text generation, producing outputs that closely mimic human-like writing. Although academic and industrial institutions have developed detectors to prevent the malicious usage of LLM-generated texts, other research has doubt about the robustness of these systems. To stress test these detectors, we introduce a proxy-attack strategy that effortlessly compromises LLMs, causing them to produce outputs that align with human-written text and mislead detection systems. Our method attacks the source model by leveraging a reinforcement learning (RL) fine-tuned humanized small language model (SLM) in the decoding phase. Through an in-depth analysis, we demonstrate that our attack strategy is capable of generating responses that are indistinguishable to detectors, preventing them from differentiating between machine-generated and human-written text. We conduct systematic evaluations on extensive datasets using proxy-attacked open-source models, including Llama2-13B, Llama3-70B, and Mixtral-8*7B in both white- and black-box settings. Our findings show that the proxy-attack strategy effectively deceives the leading detectors, resulting in an average AUROC drop of 70.4% across multiple datasets, with a maximum drop of 90.3% on a single dataset. Furthermore, in cross-discipline scenarios, our strategy also bypasses these detectors, leading to a significant relative decrease of up to 90.9%, while in cross-language scenario, the drop reaches 91.3%. Despite our proxy-attack strategy successfully bypassing the detectors with such significant relative drops, we find that the generation quality of the attacked models remains preserved, even within a modest utility budget, when compared to the text produced by the original, unattacked source model.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現はテキスト生成の分野に革命をもたらし、人間のような文章を忠実に模倣する出力を生み出した。
学術機関や産業機関は、LSM生成テキストの悪意ある使用を防ぐために検出器を開発したが、他の研究ではこれらのシステムの堅牢性に疑問を呈している。
これらの検知器をストレステストするために,LLMを不注意に妥協させるプロキシ・アタック・ストラテジーを導入し,人手によるテキストや誤読検出システムと整合した出力を生成する。
提案手法は, 復号相における強化学習 (RL) の微調整による小型言語モデル (SLM) を活用することで, 情報源モデルを攻撃する。
詳細な分析を通じて、我々の攻撃戦略は検出器と区別できない応答を生成することができ、機械生成テキストと人文テキストの区別を防止することができることを示した。
我々は,Llama2-13B,Llama3-70B,Mixtral-8*7Bなどのプロキシ攻撃型オープンソースモデルを用いて,ホワイトボックスとブラックボックスの設定において,広範なデータセットを体系的に評価する。
その結果,複数のデータセットに対して平均70.4%のAUROC値が低下し,最大90.3%のAUROC値が低下した。
さらに、横断的なシナリオでは、我々の戦略はこれらの検出器をバイパスし、90.9%の相対的な減少をもたらす一方、クロスランゲージシナリオでは91.3%に達する。
筆者らのプロキシ・アタック・ストラテジーは,このような大きな相対的な損失を伴って検出器をバイパスすることに成功したが,元の非アタック・ソース・モデルが生成したテキストと比較すると,攻撃対象モデルの生成品質は,控えめな実用予算内でも維持されていることがわかった。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。
偽情報の拡散など倫理的でない応用が懸念されている。
RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文 参考訳(メタデータ) (2024-10-04T17:59:00Z) - ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
それぞれの強みを組み合わせるための理論的な新しいアプローチを提案する。
種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - What Does the Bot Say? Opportunities and Risks of Large Language Models in Social Media Bot Detection [48.572932773403274]
ソーシャルボット検出における大規模言語モデルの可能性とリスクについて検討する。
本稿では,多様なユーザ情報モダリティを分割し,克服するための混合異種エキスパートフレームワークを提案する。
実験により、1000の注釈付き例に対する命令チューニングは、最先端のベースラインよりも優れた特殊なLLMを生成することが示された。
論文 参考訳(メタデータ) (2024-02-01T06:21:19Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。