論文の概要: Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection
- arxiv url: http://arxiv.org/abs/2412.10432v2
- Date: Sun, 22 Dec 2024 15:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:51.609218
- Title: Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection
- Title(参考訳): Imitate before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection
- Authors: Jiaqi Chen, Xiaoye Zhu, Tianyang Liu, Ying Chen, Xinhui Chen, Yiwen Yuan, Chak Tou Leong, Zuchao Li, Tang Long, Lei Zhang, Chenyu Yan, Guanghao Mei, Jie Zhang, Lefei Zhang,
- Abstract要約: 大規模言語モデル (LLM) はテキスト生成に革命をもたらした。
機械生成テキストの検出はますます困難になっている。
ImBD(Imitate Before Detect)アプローチを提案する。
次に、テスト対象のテキストの分布とマシンスタイルの分布を比較し、そのテキストが機械修正されたかどうかを判定する。
- 参考スコア(独自算出の注目度): 39.62360229183229
- License:
- Abstract: Large Language Models (LLMs) have revolutionized text generation, making detecting machine-generated text increasingly challenging. Although past methods have achieved good performance on detecting pure machine-generated text, those detectors have poor performance on distinguishing machine-revised text (rewriting, expansion, and polishing), which can have only minor changes from its original human prompt. As the content of text may originate from human prompts, detecting machine-revised text often involves identifying distinctive machine styles, e.g., worded favored by LLMs. However, existing methods struggle to detect machine-style phrasing hidden within the content contributed by humans. We propose the "Imitate Before Detect" (ImBD) approach, which first imitates the machine-style token distribution, and then compares the distribution of the text to be tested with the machine-style distribution to determine whether the text has been machine-revised. To this end, we introduce style preference optimization (SPO), which aligns a scoring LLM model to the preference of text styles generated by machines. The aligned scoring model is then used to calculate the style-conditional probability curvature (Style-CPC), quantifying the log probability difference between the original and conditionally sampled texts for effective detection. We conduct extensive comparisons across various scenarios, encompassing text revisions by six LLMs, four distinct text domains, and three machine revision types. Compared to existing state-of-the-art methods, our method yields a 13% increase in AUC for detecting text revised by open-source LLMs, and improves performance by 5% and 19% for detecting GPT-3.5 and GPT-4o revised text, respectively. Notably, our method surpasses the commercially trained GPT-Zero with just $1,000$ samples and five minutes of SPO, demonstrating its efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト生成に革命をもたらし、機械生成したテキストの検出がますます困難になっている。
過去の手法は、純粋な機械生成テキストの検出において優れた性能を発揮してきたが、これらの検出器は、機械修正されたテキスト(書き換え、拡張、研磨)を区別する性能が低く、本来の人間のプロンプトからわずかにしか変化しない。
テキストの内容は人間のプロンプトに由来する可能性があるため、機械改訂されたテキストを検出するには、LLMによって好まれる単語である例えば、特有の機械スタイルを特定する必要がある。
しかし、既存の手法では、人間が提供したコンテンツの中に隠された機械スタイルのフレーズを検出するのに苦労している。
ImBD(Imitate Before Detect)アプローチは,まず機械方式のトークン分布を模倣し,テスト対象のテキストの分布を機械方式の分布と比較することにより,テキストが機械修正されたかどうかを判断する。
そこで本研究では,機械が生成するテキストスタイルの好みに合わせて,スコアリング LLM モデルを調整したスタイル選好最適化(SPO)を提案する。
次に、アライメントされたスコアリングモデルを用いて、スタイル条件付き確率曲率(Style-CPC)を計算し、元のテキストと条件付きテキストのログ確率差を定量化し、効果的な検出を行う。
我々は,6つのLLMによるテキストリビジョン,4つの異なるテキストドメイン,および3つのマシンリビジョンタイプを含む,さまざまなシナリオに対して広範な比較を行う。
既存の最先端手法と比較して,オープンソースのLCMで改訂されたテキストを検出するAUCは13%増加し,GPT-3.5とGPT-4oの改訂テキストをそれぞれ5%,GPT-4oで検出すると19%向上した。
特に, 市販のGPT-Zeroを1,000ドルのサンプルと5分間のSPOで上回り, 効率と有効性を示した。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文 参考訳(メタデータ) (2024-01-17T18:45:13Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。