論文の概要: AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising
- arxiv url: http://arxiv.org/abs/2311.07700v1
- Date: Mon, 13 Nov 2023 19:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:32:10.665985
- Title: AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising
- Title(参考訳): AuthentiGPT:ブラックボックス言語モデルによる機械生成テキストの検出
- Authors: Zhen Guo, Shangdi Yu
- Abstract要約: 大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
- 参考スコア(独自算出の注目度): 4.924903495092775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have opened up enormous opportunities while
simultaneously posing ethical dilemmas. One of the major concerns is their
ability to create text that closely mimics human writing, which can lead to
potential misuse, such as academic misconduct, disinformation, and fraud. To
address this problem, we present AuthentiGPT, an efficient classifier that
distinguishes between machine-generated and human-written texts. Under the
assumption that human-written text resides outside the distribution of
machine-generated text, AuthentiGPT leverages a black-box LLM to denoise input
text with artificially added noise, and then semantically compares the denoised
text with the original to determine if the content is machine-generated. With
only one trainable parameter, AuthentiGPT eliminates the need for a large
training dataset, watermarking the LLM's output, or computing the
log-likelihood. Importantly, the detection capability of AuthentiGPT can be
easily adapted to any generative language model. With a 0.918 AUROC score on a
domain-specific dataset, AuthentiGPT demonstrates its effectiveness over other
commercial algorithms, highlighting its potential for detecting
machine-generated text in academic settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、倫理的ジレンマを同時に装いながら巨大な機会を開放している。
主な懸念の1つは、人間の文章を忠実に模倣するテキストを作成する能力であり、学術的な不正行為、偽情報、詐欺などの潜在的な誤用につながる可能性がある。
この問題に対処するために,機械生成テキストと人文テキストを区別する効率的な分類器であるauthentigptを提案する。
人文テキストが機械生成テキストの配布外に存在するという仮定のもと、AuthentiGPTはブラックボックスのLCMを利用して人工的に付加されたノイズで入力テキストを識別し、意味的に原文と比較し、その内容が機械生成されているかどうかを決定する。
トレーニング可能なパラメータは1つだけで、AuthentiGPTは大規模なトレーニングデータセットの必要性を排除し、LCMの出力を透かし、ログライクな状態を計算する。
重要なことに、AuthentiGPTの検出機能は、任意の生成言語モデルに容易に適応できる。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示し、学術的な設定で機械生成テキストを検出する可能性を強調している。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - GPT-who: An Information Density-based Machine-Generated Text Detector [6.111161457447324]
精神言語学的に着想を得た最初のドメイン非依存型統計検出器であるGPT-whoを提案する。
この検出器は、UDDベースの特徴を用いて、LLM(Large Language Models)生成および人文生成の各テキストのユニークな統計的シグネチャをモデル化する。
過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。
論文 参考訳(メタデータ) (2023-10-09T23:06:05Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。