論文の概要: GPT-who: An Information Density-based Machine-Generated Text Detector
- arxiv url: http://arxiv.org/abs/2310.06202v1
- Date: Mon, 9 Oct 2023 23:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:15:41.464055
- Title: GPT-who: An Information Density-based Machine-Generated Text Detector
- Title(参考訳): GPT- Who: 情報密度に基づく機械生成テキスト検出器
- Authors: Saranya Venkatraman, Adaku Uchendu, Dongwon Lee
- Abstract要約: GPTは、精神言語学的に認識される最初の多クラスドメインに依存しない統計ベースの検出器である。
本稿では,UIDに基づく人文と機械文の表現の最大化について述べる。
- 参考スコア(独自算出の注目度): 6.868333048917314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Uniform Information Density principle posits that humans prefer to spread
information evenly during language production. In this work, we examine if the
UID principle can help capture differences between Large Language Models (LLMs)
and human-generated text. We propose GPT-who, the first
psycholinguistically-aware multi-class domain-agnostic statistical-based
detector. This detector employs UID-based features to model the unique
statistical signature of each LLM and human author for accurate authorship
attribution. We evaluate our method using 4 large-scale benchmark datasets and
find that GPT-who outperforms state-of-the-art detectors (both statistical- &
non-statistical-based) such as GLTR, GPTZero, OpenAI detector, and ZeroGPT by
over $20$% across domains. In addition to superior performance, it is
computationally inexpensive and utilizes an interpretable representation of
text articles. We present the largest analysis of the UID-based representations
of human and machine-generated texts (over 400k articles) to demonstrate how
authors distribute information differently, and in ways that enable their
detection using an off-the-shelf LM without any fine-tuning. We find that
GPT-who can distinguish texts generated by very sophisticated LLMs, even when
the overlying text is indiscernible.
- Abstract(参考訳): 一様情報密度原理は、人間が言語生成中に情報を均等に拡散することを好むことを仮定する。
本研究では,大言語モデル (LLM) と人文生成テキストの違いを捉えるのに UID 原則が有効かどうかを検討する。
GPT- who は,精神言語学的に初めて認識される多クラスドメイン非依存型統計ベース検出器である。
この検出器は、UIDに基づく特徴を用いて、それぞれのLSMのユニークな統計的特徴と、正確な著者属性をモデル化する。
提案手法は,4つの大規模ベンチマークデータセットを用いて評価し,GLTR,GPTZero,OpenAI検出器,ZeroGPTなどの最先端検出器(統計・統計ベースともに)を20ドル以上で上回る結果を得た。
優れた性能に加えて、計算量的に安価であり、テキストの解釈可能な表現を利用する。
筆者らは,UIDに基づく人文と機械文の表現(400万記事以上)を最大に分析し,著者がいかに情報を異なる方法で配布するか,また,自作のLMを微調整なしで検出することができるかを示す。
過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text
via Conditional Probability Curvature [36.31281981509264]
大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生成する能力を示している。
信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。
Fast-DetectGPTは、ディテクターGPTの摂動ステップを、より効率的なサンプリングステップで置き換える最適化されたゼロショット検出器である。
論文 参考訳(メタデータ) (2023-10-08T11:41:28Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。