Fugu-MT 論文翻訳(概要): Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

論文の概要: Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

arxiv url: http://arxiv.org/abs/2505.14608v1
Date: Tue, 20 May 2025 16:55:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.596885
Title: Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)
Title（参考訳）: フール検出器に最適化された言語モデルは、相変わらず異なるスタイル(そしてそれを変える方法)
Authors: Rafael Rivera Soto, Barry Chen, Nicholas Andrews,
Abstract要約: 機械文検出器の性能を劣化させるために,どの言語モデルを最適化できるかを検討する。モデルがスタイリスティックな検出器に最適化されているとしても、検出性能は驚くほど影響を受けていない。我々は,従来の特徴を用いた検出を回避しつつ,人間の筆記機械の特徴空間間のギャップを埋めることを目的とした,新たなアプローチを探求する。
参考スコア（独自算出の注目度）: 4.148732457277201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite considerable progress in the development of machine-text detectors, it has been suggested that the problem is inherently hard, and therefore, that stakeholders should proceed under the assumption that machine-generated text cannot be reliably detected as such. We examine a recent such claim by Nicks et al. (2024) regarding the ease with which language models can be optimized to degrade the performance of machine-text detectors, including detectors not specifically optimized against. We identify a feature space$\unicode{x2013}$the stylistic feature space$\unicode{x2013}$that is robust to such optimization, and show that it may be used to reliably detect samples from language models optimized to prevent detection. Furthermore, we show that even when models are explicitly optimized against stylistic detectors, detection performance remains surprisingly unaffected. We then seek to understand if stylistic detectors are inherently more robust. To study this question, we explore a new paraphrasing approach that simultaneously aims to close the gap between human writing and machine writing in stylistic feature space while avoiding detection using traditional features. We show that when only a single sample is available for detection, this attack is universally effective across all detectors considered, including those that use writing style. However, as the number of samples available for detection grows, the human and machine distributions become distinguishable. This observation encourages us to introduce AURA, a metric that estimates the overlap between human and machine-generated distributions by analyzing how detector performance improves as more samples become available. Overall, our findings underscore previous recommendations to avoid reliance on machine-text detection.
Abstract（参考訳）: 機械テキスト検出装置の開発が著しく進展しているにもかかわらず、この問題は本質的には困難であり、したがって、機械生成されたテキストを確実に検出できないという前提の下で利害関係者が進めるべきであると示唆されている。我々は,Nicks et al (2024) による最近の主張を,特に最適化されていない検出器を含む機械文検出器の性能を劣化させるために,言語モデルが最適化できる容易性について検討した。特徴空間$\unicode{x2013}$the stylistic feature space$\unicode{x2013}$ that is robust to such optimization, and show that can be used to secureably detection from language model。さらに, モデルがスタイリスティック検出器に対して明示的に最適化されている場合でも, 検出性能は驚くほど影響を受けていないことを示す。次に、スタイリスティックな検出器が本質的により堅牢であるかどうかを理解する。そこで本研究では,従来の特徴を用いた検出を回避しつつ,スタイリスティックな特徴空間における人書きと機械書きのギャップを埋めることを目的とした,新しい言い回し手法を提案する。 1つのサンプルしか検出できない場合、この攻撃は、書き込みスタイルを使用するものを含む、考慮されたすべての検出器に対して普遍的に有効であることを示す。しかし、検出に使えるサンプルの数が増加するにつれて、人や機械の分布は区別可能である。この観察により,より多くのサンプルが利用可能になるにつれて,検知性能が向上するかを分析することにより,人間と機械による分布の重なりを推定する指標であるAURAの導入が促進される。本研究は,機械文検出への依存を避けるため,これまでの勧告を裏付けるものである。

関連論文リスト

Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors [4.7713095161046555]
本稿では,最新のMGT検出器の言語情報による敵攻撃に対するレジリエンスをテストするパイプラインを提案する。我々は、MGTスタイルを人文テキスト(HWT)にシフトするために、言語モデルを微調整する。これは検出器が構造的な手がかりに頼っていることを悪用し、新しい世代を検知することがより困難になる。
論文参考訳（メタデータ） (2025-05-30T12:33:30Z)
TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文参考訳（メタデータ） (2025-03-26T10:56:59Z)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文参考訳（メタデータ） (2024-12-06T15:56:11Z)
Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。トピックと検出性能の間に有意な相関関係が発見された。これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文参考訳（メタデータ） (2023-12-20T10:53:53Z)
Smaller Language Models are Better Black-box Machine-Generated Text Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文参考訳（メタデータ） (2023-05-17T00:09:08Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。従来の検出方法は、相手文に対して正しい予測を与えることができない。本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文参考訳（メタデータ） (2023-02-03T22:58:07Z)
Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文参考訳（メタデータ） (2021-08-25T10:41:29Z)
Detection of Adversarial Supports in Few-shot Classifiers Using Feature Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文参考訳（メタデータ） (2020-12-09T14:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。