論文の概要: Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)
- arxiv url: http://arxiv.org/abs/2505.14608v1
- Date: Tue, 20 May 2025 16:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.596885
- Title: Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)
- Title(参考訳): フール検出器に最適化された言語モデルは、相変わらず異なるスタイル(そしてそれを変える方法)
- Authors: Rafael Rivera Soto, Barry Chen, Nicholas Andrews,
- Abstract要約: 機械文検出器の性能を劣化させるために,どの言語モデルを最適化できるかを検討する。
モデルがスタイリスティックな検出器に最適化されているとしても、検出性能は驚くほど影響を受けていない。
我々は,従来の特徴を用いた検出を回避しつつ,人間の筆記機械の特徴空間間のギャップを埋めることを目的とした,新たなアプローチを探求する。
- 参考スコア(独自算出の注目度): 4.148732457277201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite considerable progress in the development of machine-text detectors, it has been suggested that the problem is inherently hard, and therefore, that stakeholders should proceed under the assumption that machine-generated text cannot be reliably detected as such. We examine a recent such claim by Nicks et al. (2024) regarding the ease with which language models can be optimized to degrade the performance of machine-text detectors, including detectors not specifically optimized against. We identify a feature space$\unicode{x2013}$the stylistic feature space$\unicode{x2013}$that is robust to such optimization, and show that it may be used to reliably detect samples from language models optimized to prevent detection. Furthermore, we show that even when models are explicitly optimized against stylistic detectors, detection performance remains surprisingly unaffected. We then seek to understand if stylistic detectors are inherently more robust. To study this question, we explore a new paraphrasing approach that simultaneously aims to close the gap between human writing and machine writing in stylistic feature space while avoiding detection using traditional features. We show that when only a single sample is available for detection, this attack is universally effective across all detectors considered, including those that use writing style. However, as the number of samples available for detection grows, the human and machine distributions become distinguishable. This observation encourages us to introduce AURA, a metric that estimates the overlap between human and machine-generated distributions by analyzing how detector performance improves as more samples become available. Overall, our findings underscore previous recommendations to avoid reliance on machine-text detection.
- Abstract(参考訳): 機械テキスト検出装置の開発が著しく進展しているにもかかわらず、この問題は本質的には困難であり、したがって、機械生成されたテキストを確実に検出できないという前提の下で利害関係者が進めるべきであると示唆されている。
我々は,Nicks et al (2024) による最近の主張を,特に最適化されていない検出器を含む機械文検出器の性能を劣化させるために,言語モデルが最適化できる容易性について検討した。
特徴空間$\unicode{x2013}$the stylistic feature space$\unicode{x2013}$ that is robust to such optimization, and show that can be used to secureably detection from language model。
さらに, モデルがスタイリスティック検出器に対して明示的に最適化されている場合でも, 検出性能は驚くほど影響を受けていないことを示す。
次に、スタイリスティックな検出器が本質的により堅牢であるかどうかを理解する。
そこで本研究では,従来の特徴を用いた検出を回避しつつ,スタイリスティックな特徴空間における人書きと機械書きのギャップを埋めることを目的とした,新しい言い回し手法を提案する。
1つのサンプルしか検出できない場合、この攻撃は、書き込みスタイルを使用するものを含む、考慮されたすべての検出器に対して普遍的に有効であることを示す。
しかし、検出に使えるサンプルの数が増加するにつれて、人や機械の分布は区別可能である。
この観察により,より多くのサンプルが利用可能になるにつれて,検知性能が向上するかを分析することにより,人間と機械による分布の重なりを推定する指標であるAURAの導入が促進される。
本研究は,機械文検出への依存を避けるため,これまでの勧告を裏付けるものである。
関連論文リスト
- TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。
これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。
我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文 参考訳(メタデータ) (2025-03-26T10:56:59Z) - A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。
本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文 参考訳(メタデータ) (2024-12-06T15:56:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。