論文の概要: Learning to Rewrite: Generalized LLM-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2408.04237v1
- Date: Thu, 8 Aug 2024 05:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:29:12.445029
- Title: Learning to Rewrite: Generalized LLM-Generated Text Detection
- Title(参考訳): 書き直し学習:汎用LLMテキスト検出
- Authors: Wei Hao, Ran Li, Weiliang Zhao, Junfeng Yang, Chengzhi Mao,
- Abstract要約: 大規模言語モデル(LLM)は、非現実的なコンテンツを作成し、偽情報を拡散するために、大規模に悪用される。
入力テキストの書き直し,LLM生成コンテンツに対する最小限の編集,人文テキストに対するさらなる編集を行うためのLLMのトレーニングを提案する。
我々の研究は、LLMが適切に訓練された場合、機械生成テキストを効果的に検出できることを示唆している。
- 参考スコア(独自算出の注目度): 19.9477991969521
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can be abused at scale to create non-factual content and spread disinformation. Detecting LLM-generated content is essential to mitigate these risks, but current classifiers often fail to generalize in open-world contexts. Prior work shows that LLMs tend to rewrite LLM-generated content less frequently, which can be used for detection and naturally generalizes to unforeseen data. However, we find that the rewriting edit distance between human and LLM content can be indistinguishable across domains, leading to detection failures. We propose training an LLM to rewrite input text, producing minimal edits for LLM-generated content and more edits for human-written text, deriving a distinguishable and generalizable edit distance difference across different domains. Experiments on text from 21 independent domains and three popular LLMs (e.g., GPT-4o, Gemini, and Llama-3) show that our classifier outperforms the state-of-the-art zero-shot classifier by up to 20.6% on AUROC score and the rewriting classifier by 9.2% on F1 score. Our work suggests that LLM can effectively detect machine-generated text if they are trained properly.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非現実的なコンテンツを作成し、偽情報を拡散するために、大規模に悪用される。
LLM生成コンテンツの検出はこれらのリスクを軽減するために不可欠であるが、現在の分類器はオープンワールドの文脈において一般化に失敗することが多い。
以前の研究は、LCMが生成したコンテンツの書き直し頻度が低い傾向を示しており、検出に使用でき、予期せぬデータに自然に一般化することができる。
しかし、人間とLLMの編集距離の書き換えは、ドメイン間で区別できないため、検出に失敗する可能性がある。
入力テキストの書き直しにLLMを訓練し、LLM生成したコンテンツに対する最小限の編集と人書きテキストに対するさらなる編集を提案し、異なるドメイン間で識別可能で一般化可能な編集距離差を導出する。
21の独立ドメインと3つのLLM(例えば、GPT-4o、Gemini、Llama-3)のテキストによる実験により、我々の分類器は、最先端のゼロショット分類器を最大20.6%、書き直し分類器を9.2%、F1スコアを最大9.2%上回った。
我々の研究は、LLMが適切に訓練された場合、機械生成テキストを効果的に検出できることを示唆している。
関連論文リスト
- "I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。
本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [60.09665704993751]
本稿では,AI生成コンテンツ分類器におけるグループ固有のしきい値最適化アルゴリズムであるFairOPTを紹介する。
我々のアプローチは、属性(例えば、テキストの長さと書き込みスタイル)に基づいて、データをサブグループに分割し、各グループの決定しきい値を学ぶ。
我々のフレームワークは、AIが生成する出力検出において、より堅牢で公平な分類基準の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。