論文の概要: Ghostbuster: Detecting Text Ghostwritten by Large Language Models
- arxiv url: http://arxiv.org/abs/2305.15047v2
- Date: Mon, 13 Nov 2023 18:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:55:05.194029
- Title: Ghostbuster: Detecting Text Ghostwritten by Large Language Models
- Title(参考訳): Ghostbuster: 大きな言語モデルで書かれたテキストゴーストを検出する
- Authors: Vivek Verma, Eve Fleisig, Nicholas Tomlin, Dan Klein
- Abstract要約: 本稿では,AI生成テキストを検出する最先端システムであるGhostbusterを紹介する。
提案手法は、文書をより弱い言語モデルに渡すことで機能し、それらの機能の組み合わせに対して構造化された検索を実行する。
Ghostbusterはターゲットモデルからトークンの確率にアクセスする必要がないため、ブラックボックスモデルや未知のモデルバージョンによって生成されたテキストを検出するのに役立つ。
- 参考スコア(独自算出の注目度): 40.587881026438254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Ghostbuster, a state-of-the-art system for detecting
AI-generated text. Our method works by passing documents through a series of
weaker language models, running a structured search over possible combinations
of their features, and then training a classifier on the selected features to
predict whether documents are AI-generated. Crucially, Ghostbuster does not
require access to token probabilities from the target model, making it useful
for detecting text generated by black-box models or unknown model versions. In
conjunction with our model, we release three new datasets of human- and
AI-generated text as detection benchmarks in the domains of student essays,
creative writing, and news articles. We compare Ghostbuster to a variety of
existing detectors, including DetectGPT and GPTZero, as well as a new RoBERTa
baseline. Ghostbuster achieves 99.0 F1 when evaluated across domains, which is
5.9 F1 higher than the best preexisting model. It also outperforms all previous
approaches in generalization across writing domains (+7.5 F1), prompting
strategies (+2.1 F1), and language models (+4.4 F1). We also analyze the
robustness of our system to a variety of perturbations and paraphrasing attacks
and evaluate its performance on documents written by non-native English
speakers.
- Abstract(参考訳): 本稿では,AI生成テキストを検出する最先端システムであるGhostbusterを紹介する。
提案手法は,複数の弱い言語モデルに文書を渡し,それらの機能の組み合わせを構造化検索し,選択した機能について分類器を訓練することで,文書がai生成されているかどうかを推定する。
重要なのは、Ghostbusterはターゲットモデルからトークンの確率にアクセスする必要がないため、ブラックボックスモデルや未知のモデルバージョンによって生成されたテキストを検出するのに役立つ。
我々のモデルとともに、学生エッセイ、創造的執筆、ニュース記事の分野における検出ベンチマークとして、人間とAIが生成するテキストの3つの新しいデータセットをリリースする。
我々は、Ghostbusterを、新しいRoBERTaベースラインと同様に、TectGPTやGPTZeroなど、さまざまな既存の検出器と比較する。
ghostbusterは、既存の最良のモデルよりも5.9 f1高いドメイン間で評価すると、99.0 f1を達成する。
また、書き込みドメイン(+7.5 F1)、戦略(+2.1 F1)、言語モデル(+4.4 F1)にまたがる、これまでのすべてのアプローチよりも優れている。
また,様々な摂動攻撃やパラフレージング攻撃に対するシステムのロバスト性を分析し,非ネイティブ英語話者による文書による性能評価を行った。
関連論文リスト
- Technical Report on the Checkfor.ai AI-Generated Text Classifier [0.17404865362620806]
CheckforAIはトランスフォーマーベースのニューラルネットワークで、大きな言語モデルで書かれたテキストと人間の書いたテキストを区別するように訓練されている。
CheckforAIは、9倍以上のエラー率で、主要な商用AI検出ツールを上回っている。
論文 参考訳(メタデータ) (2024-02-21T17:13:41Z) - Towards a Robust Detection of Language Model Generated Text: Is ChatGPT
that Easy to Detect? [0.0]
本稿では,フランス語テキストのためのChatGPT検出器の開発と評価手法を提案する。
提案手法では、英文データセットをフランス語に翻訳し、翻訳されたデータに基づいて分類器を訓練する。
その結果, 検出器はChatGPT生成テキストを効果的に検出でき, ドメイン内設定における基本的な攻撃手法に対する堅牢性も高いことがわかった。
論文 参考訳(メタデータ) (2023-06-09T13:03:53Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。