論文の概要: AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising
- arxiv url: http://arxiv.org/abs/2311.07700v1
- Date: Mon, 13 Nov 2023 19:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:32:10.665985
- Title: AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising
- Title(参考訳): AuthentiGPT:ブラックボックス言語モデルによる機械生成テキストの検出
- Authors: Zhen Guo, Shangdi Yu
- Abstract要約: 大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
- 参考スコア(独自算出の注目度): 4.924903495092775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have opened up enormous opportunities while
simultaneously posing ethical dilemmas. One of the major concerns is their
ability to create text that closely mimics human writing, which can lead to
potential misuse, such as academic misconduct, disinformation, and fraud. To
address this problem, we present AuthentiGPT, an efficient classifier that
distinguishes between machine-generated and human-written texts. Under the
assumption that human-written text resides outside the distribution of
machine-generated text, AuthentiGPT leverages a black-box LLM to denoise input
text with artificially added noise, and then semantically compares the denoised
text with the original to determine if the content is machine-generated. With
only one trainable parameter, AuthentiGPT eliminates the need for a large
training dataset, watermarking the LLM's output, or computing the
log-likelihood. Importantly, the detection capability of AuthentiGPT can be
easily adapted to any generative language model. With a 0.918 AUROC score on a
domain-specific dataset, AuthentiGPT demonstrates its effectiveness over other
commercial algorithms, highlighting its potential for detecting
machine-generated text in academic settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、倫理的ジレンマを同時に装いながら巨大な機会を開放している。
主な懸念の1つは、人間の文章を忠実に模倣するテキストを作成する能力であり、学術的な不正行為、偽情報、詐欺などの潜在的な誤用につながる可能性がある。
この問題に対処するために,機械生成テキストと人文テキストを区別する効率的な分類器であるauthentigptを提案する。
人文テキストが機械生成テキストの配布外に存在するという仮定のもと、AuthentiGPTはブラックボックスのLCMを利用して人工的に付加されたノイズで入力テキストを識別し、意味的に原文と比較し、その内容が機械生成されているかどうかを決定する。
トレーニング可能なパラメータは1つだけで、AuthentiGPTは大規模なトレーニングデータセットの必要性を排除し、LCMの出力を透かし、ログライクな状態を計算する。
重要なことに、AuthentiGPTの検出機能は、任意の生成言語モデルに容易に適応できる。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示し、学術的な設定で機械生成テキストを検出する可能性を強調している。
関連論文リスト
- HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to
Detect Machine-Generated Text? [0.0]
本稿では,SemEval-2024タスク8"マルチジェネレータ,マルチドメイン,マルチ言語ブラックボックスマシン生成テキスト検出"のために開発したシステムについて述べる。
本研究では,ベースラインのパラメータの40%を用いたコントラスト学習に基づく単一モデルを提案する。
重要な発見は、複数のモデルのアンサンブルがなくても、単一のベースモデルは、データ拡張と対照的な学習の助けを借りて、同等のパフォーマンスを持つことができるということです。
論文 参考訳(メタデータ) (2024-02-19T04:11:34Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - GPT-who: An Information Density-based Machine-Generated Text Detector [6.868333048917314]
GPTは、精神言語学的に認識される最初の多クラスドメインに依存しない統計ベースの検出器である。
本稿では,UIDに基づく人文と機械文の表現の最大化について述べる。
論文 参考訳(メタデータ) (2023-10-09T23:06:05Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。