論文の概要: Technical Report on the Checkfor.ai AI-Generated Text Classifier
- arxiv url: http://arxiv.org/abs/2402.14873v2
- Date: Mon, 26 Feb 2024 05:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:20:38.812062
- Title: Technical Report on the Checkfor.ai AI-Generated Text Classifier
- Title(参考訳): Checkfor.ai AI生成テキスト分類器の技術報告
- Authors: Bradley Emi and Max Spero
- Abstract要約: CheckforAIはトランスフォーマーベースのニューラルネットワークで、大きな言語モデルで書かれたテキストと人間の書いたテキストを区別するように訓練されている。
CheckforAIは、9倍以上のエラー率で、主要な商用AI検出ツールを上回っている。
- 参考スコア(独自算出の注目度): 0.17404865362620806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the CheckforAI text classifier, a transformer-based neural network
trained to distinguish text written by large language models from text written
by humans. CheckforAI outperforms zero-shot methods such as DetectGPT as well
as leading commercial AI detection tools with over 9 times lower error rates on
a comprehensive benchmark comprised of ten text domains (student writing,
creative writing, scientific writing, books, encyclopedias, news, email,
scientific papers, short-form Q&A) and 8 open- and closed-source large language
models. We propose a training algorithm, hard negative mining with synthetic
mirrors, that enables our classifier to achieve orders of magnitude lower false
positive rates on high-data domains such as reviews. Finally, we show that
CheckforAI is not biased against nonnative English speakers and generalizes to
domains and models unseen during training.
- Abstract(参考訳): 提案するCheckforAIテキスト分類器は,大きな言語モデルで書かれたテキストと人間の書いたテキストとを区別するために訓練されたトランスフォーマーベースのニューラルネットワークである。
checkforaiは、sudent writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form q&a)と8つのオープンソースおよびクローズドな大規模言語モデルで構成された総合ベンチマークにおいて、detectgptのようなゼロショットメソッドと9倍以上のエラー率の商用ai検出ツールよりも優れている。
本稿では, 評価などの高データ領域において, 分類器の偽陽性率を桁違いに下げることのできるトレーニングアルゴリズムである, 合成ミラーを用いた強負のマイニングを提案する。
最後に、CheckforAIは、非ネイティブな英語話者には偏らないことを示し、トレーニング中に見えないドメインやモデルに一般化する。
関連論文リスト
- Deep Learning Detection Method for Large Language Models-Generated
Scientific Content [0.0]
大規模言語モデルは、人間が書いたものと区別できない科学的内容を生成する。
本稿では,ChatGPTを用いた科学テキスト検出手法であるAI-Catcherを提案する。
AI-Catcherの精度は平均37.4%向上した。
論文 参考訳(メタデータ) (2024-02-27T19:16:39Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文 参考訳(メタデータ) (2023-05-26T09:27:43Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。