論文の概要: LLMDet: A Third Party Large Language Models Generated Text Detection
Tool
- arxiv url: http://arxiv.org/abs/2305.15004v2
- Date: Tue, 10 Oct 2023 09:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:03:39.430978
- Title: LLMDet: A Third Party Large Language Models Generated Text Detection
Tool
- Title(参考訳): LLMDet: サードパーティ製大規模言語モデル生成テキスト検出ツール
- Authors: Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng and Tat-Seng Chua
- Abstract要約: 大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
- 参考スコア(独自算出の注目度): 119.0952092533317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generated texts from large language models (LLMs) are remarkably close to
high-quality human-authored text, raising concerns about their potential misuse
in spreading false information and academic misconduct. Consequently, there is
an urgent need for a highly practical detection tool capable of accurately
identifying the source of a given text. However, existing detection tools
typically rely on access to LLMs and can only differentiate between
machine-generated and human-authored text, failing to meet the requirements of
fine-grained tracing, intermediary judgment, and rapid detection. Therefore, we
propose LLMDet, a model-specific, secure, efficient, and extendable detection
tool, that can source text from specific LLMs, such as GPT-2, OPT, LLaMA, and
others. In LLMDet, we record the next-token probabilities of salient n-grams as
features to calculate proxy perplexity for each LLM. By jointly analyzing the
proxy perplexities of LLMs, we can determine the source of the generated text.
Experimental results show that LLMDet yields impressive detection performance
while ensuring speed and security, achieving 98.54% precision and x3.5 faster
for recognizing human-authored text. Additionally, LLMDet can effortlessly
extend its detection capabilities to a new open-source model. We will provide
an open-source tool at https://github.com/TrustedLLM/LLMDet.
- Abstract(参考訳): 大規模言語モデル(LLM)から生成されたテキストは、高品質な人間によるテキストに非常に近いため、偽情報や学術的不正行為を広める際の誤用の可能性への懸念が高まっている。
これにより、与えられたテキストのソースを正確に識別できる高度に実用的な検出ツールが緊急に必要となる。
しかし、既存の検出ツールは一般的にLLMへのアクセスに依存しており、マシン生成テキストと人間によるテキストのみを区別することができ、きめ細かいトレーシング、中間判断、迅速な検出の要件を満たしていない。
そこで本研究では,GPT-2, OPT, LLaMAなどの特定のLLMからテキストを抽出可能な,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
LLMDetでは、各LLMのプロキシパープレキシティを計算する機能として、有意なn-gramの次の確率を記録している。
llmのプロキシのパープレキシティを共同分析することで、生成されたテキストのソースを決定できる。
実験結果から、LLMDetは速度と安全性を確保しつつ、優れた検出性能を示し、98.54%の精度とx3.5の高速化を実現している。
さらにLLMDetは、その検出機能を新たなオープンソースモデルに拡張することも可能だ。
私たちはhttps://github.com/TrustedLLM/LLMDet.comでオープンソースツールを提供します。
関連論文リスト
- Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated
Text [102.51430575139572]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。
本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-01-22T16:09:47Z) - A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - Detecting LLM-Generated Text in Computing Education: A Comparative Study
for ChatGPT Cases [0.0]
大規模言語モデル(LLM)は、教育における学術的完全性に深刻な脅威をもたらしている。
現代の検出器は、学術的完全性を維持するための完全なソリューションを提供するために、まだ改善を必要としている。
論文 参考訳(メタデータ) (2023-07-10T12:18:34Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。