論文の概要: Ghostbuster: Detecting Text Ghostwritten by Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15047v3
- Date: Fri, 5 Apr 2024 23:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:27:02.463055
- Title: Ghostbuster: Detecting Text Ghostwritten by Large Language Models
- Title(参考訳): Ghostbuster: 大きな言語モデルで書かれたテキストゴーストを検出する
- Authors: Vivek Verma, Eve Fleisig, Nicholas Tomlin, Dan Klein,
- Abstract要約: 本稿では,AI生成テキストを検出する最先端システムであるGhostbusterを紹介する。
提案手法は、文書をより弱い言語モデルに渡すことで機能し、それらの機能の組み合わせに対して構造化された検索を実行する。
Ghostbusterはターゲットモデルからトークンの確率にアクセスする必要がないため、ブラックボックスモデルや未知のモデルバージョンによって生成されたテキストを検出するのに役立つ。
- 参考スコア(独自算出の注目度): 37.153821637332776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Ghostbuster, a state-of-the-art system for detecting AI-generated text. Our method works by passing documents through a series of weaker language models, running a structured search over possible combinations of their features, and then training a classifier on the selected features to predict whether documents are AI-generated. Crucially, Ghostbuster does not require access to token probabilities from the target model, making it useful for detecting text generated by black-box models or unknown model versions. In conjunction with our model, we release three new datasets of human- and AI-generated text as detection benchmarks in the domains of student essays, creative writing, and news articles. We compare Ghostbuster to a variety of existing detectors, including DetectGPT and GPTZero, as well as a new RoBERTa baseline. Ghostbuster achieves 99.0 F1 when evaluated across domains, which is 5.9 F1 higher than the best preexisting model. It also outperforms all previous approaches in generalization across writing domains (+7.5 F1), prompting strategies (+2.1 F1), and language models (+4.4 F1). We also analyze the robustness of our system to a variety of perturbations and paraphrasing attacks and evaluate its performance on documents written by non-native English speakers.
- Abstract(参考訳): 本稿では,AI生成テキストを検出する最先端システムであるGhostbusterを紹介する。
提案手法は、文書をより弱い言語モデルに渡すことで、それらの特徴の組み合わせを構造化した検索を実行し、選択した特徴の分類器を訓練して、文書がAI生成されているかどうかを予測する。
重要なのは、Ghostbusterはターゲットモデルからトークンの確率にアクセスする必要がないため、ブラックボックスモデルや未知のモデルバージョンによって生成されたテキストを検出するのに有用である。
我々のモデルと合わせて、学生エッセイ、創造的執筆、ニュース記事の分野における検出ベンチマークとして、人間とAIが生成するテキストのデータセットを新たに3つリリースする。
我々は、Ghostbusterを、新しいRoBERTaベースラインと同様に、TectGPTやGPTZeroなど、さまざまな既存の検出器と比較する。
Ghostbusterは、ドメイン間で評価された場合、99.0 F1を達成する。
また、書き込みドメイン(+7.5 F1)、戦略(+2.1 F1)、言語モデル(+4.4 F1)をまたいだ一般化において、これまでのすべてのアプローチよりも優れていた。
また,本システムは,様々な摂動やパラフレージング攻撃に対して頑健さを解析し,非ネイティブな英語話者による文書上での性能評価を行った。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Towards a Robust Detection of Language Model Generated Text: Is ChatGPT
that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。
提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。
その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文 参考訳(メタデータ) (2023-06-09T13:03:53Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。