Fugu-MT 論文翻訳(概要): Technical Report on the Checkfor.ai AI-Generated Text Classifier

論文の概要: Technical Report on the Checkfor.ai AI-Generated Text Classifier

arxiv url: http://arxiv.org/abs/2402.14873v2
Date: Mon, 26 Feb 2024 05:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:20:38.812062
Title: Technical Report on the Checkfor.ai AI-Generated Text Classifier
Title（参考訳）: Checkfor.ai AI生成テキスト分類器の技術報告
Authors: Bradley Emi and Max Spero
Abstract要約: CheckforAIはトランスフォーマーベースのニューラルネットワークで、大きな言語モデルで書かれたテキストと人間の書いたテキストを区別するように訓練されている。 CheckforAIは、9倍以上のエラー率で、主要な商用AI検出ツールを上回っている。
参考スコア（独自算出の注目度）: 0.17404865362620806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the CheckforAI text classifier, a transformer-based neural network trained to distinguish text written by large language models from text written by humans. CheckforAI outperforms zero-shot methods such as DetectGPT as well as leading commercial AI detection tools with over 9 times lower error rates on a comprehensive benchmark comprised of ten text domains (student writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form Q&A) and 8 open- and closed-source large language models. We propose a training algorithm, hard negative mining with synthetic mirrors, that enables our classifier to achieve orders of magnitude lower false positive rates on high-data domains such as reviews. Finally, we show that CheckforAI is not biased against nonnative English speakers and generalizes to domains and models unseen during training.
Abstract（参考訳）: 提案するCheckforAIテキスト分類器は,大きな言語モデルで書かれたテキストと人間の書いたテキストとを区別するために訓練されたトランスフォーマーベースのニューラルネットワークである。 checkforaiは、sudent writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form q&a)と8つのオープンソースおよびクローズドな大規模言語モデルで構成された総合ベンチマークにおいて、detectgptのようなゼロショットメソッドと9倍以上のエラー率の商用ai検出ツールよりも優れている。本稿では, 評価などの高データ領域において, 分類器の偽陽性率を桁違いに下げることのできるトレーニングアルゴリズムである, 合成ミラーを用いた強負のマイニングを提案する。最後に、CheckforAIは、非ネイティブな英語話者には偏らないことを示し、トレーニング中に見えないドメインやモデルに一般化する。

関連論文リスト

AI Generated Text Detection Using Instruction Fine-tuned Large Language and Transformer-Based Models [0.2796197251957245]
大規模言語モデル (LLM) は文法的に正し、意味的に意味のあるテキストを生成する。 LLMは、非常に現実的なフィッシングメールの作成、フェイクニュースの拡散、サイバー犯罪の自動化のためのコードの生成、不正な科学論文の執筆に誤用されている。言語、統計、機械学習、アンサンブルに基づくアプローチを用いて、機械が生成したテキストと人間によるコンテンツとを区別する様々な試みがなされている。
論文参考訳（メタデータ） (2025-07-07T16:13:13Z)
Deep Learning Detection Method for Large Language Models-Generated Scientific Content [0.0]
大規模言語モデルは、人間が書いたものと区別できない科学的内容を生成する。本稿では,ChatGPTを用いた科学テキスト検出手法であるAI-Catcherを提案する。 AI-Catcherの精度は平均37.4%向上した。
論文参考訳（メタデータ） (2024-02-27T19:16:39Z)
Offline Detection of Misspelled Handwritten Words by Convolving Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文参考訳（メタデータ） (2023-09-18T21:13:42Z)
Distinguishing Human Generated Text From ChatGPT Generated Text Using Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。 GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文参考訳（メタデータ） (2023-05-26T09:27:43Z)
Smaller Language Models are Better Black-box Machine-Generated Text Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文参考訳（メタデータ） (2023-05-17T00:09:08Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)
Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文参考訳（メタデータ） (2021-12-05T21:57:22Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。 ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文参考訳（メタデータ） (2020-06-28T14:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。