論文の概要: Deciphering Textual Authenticity: A Generalized Strategy through the
Lens of Large Language Semantics for Detecting Human vs. Machine-Generated
Text
- arxiv url: http://arxiv.org/abs/2401.09407v2
- Date: Thu, 1 Feb 2024 22:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:55:04.491808
- Title: Deciphering Textual Authenticity: A Generalized Strategy through the
Lens of Large Language Semantics for Detecting Human vs. Machine-Generated
Text
- Title(参考訳): テキスト認証の解読:人間対機械生成テキスト検出のための大言語セマンティクスのレンズによる一般化戦略
- Authors: Mazal Bethany, Brandon Wherry, Emet Bethany, Nishant Vishwamitra,
Anthony Rios, Peyman Najafirad
- Abstract要約: プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
- 参考スコア(独自算出の注目度): 8.70629353035464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent proliferation of Large Language Models (LLMs), there has been
an increasing demand for tools to detect machine-generated text. The effective
detection of machine-generated text face two pertinent problems: First, they
are severely limited in generalizing against real-world scenarios, where
machine-generated text is produced by a variety of generators, including but
not limited to GPT-4 and Dolly, and spans diverse domains, ranging from
academic manuscripts to social media posts. Second, existing detection
methodologies treat texts produced by LLMs through a restrictive binary
classification lens, neglecting the nuanced diversity of artifacts generated by
different LLMs. In this work, we undertake a systematic study on the detection
of machine-generated text in real-world scenarios. We first study the
effectiveness of state-of-the-art approaches and find that they are severely
limited against text produced by diverse generators and domains in the real
world. Furthermore, t-SNE visualizations of the embeddings from a pretrained
LLM's encoder show that they cannot reliably distinguish between human and
machine-generated text. Based on our findings, we introduce a novel system,
T5LLMCipher, for detecting machine-generated text using a pretrained T5 encoder
combined with LLM embedding sub-clustering to address the text produced by
diverse generators and domains in the real world. We evaluate our approach
across 9 machine-generated text systems and 9 domains and find that our
approach provides state-of-the-art generalization ability, with an average
increase in F1 score on machine-generated text of 19.6\% on unseen generators
and domains compared to the top performing existing approaches and correctly
attributes the generator of text with an accuracy of 93.6\%.
- Abstract(参考訳): 近年の大規模言語モデル(llms)の普及に伴い、機械生成テキストを検出するツールの需要が高まっている。
機械生成テキストの効果的な検出は、まず、gpt-4やdollyなど、さまざまなジェネレータによって機械生成テキストが生成され、学術的な原稿からソーシャルメディアのポストまで、さまざまな領域にまたがる現実のシナリオに対して、かなり制限されている。
第二に、既存の検出手法は、LLMが生成するテキストを制限されたバイナリ分類レンズで処理し、異なるLLMが生成するアーティファクトの微妙な多様性を無視している。
本研究では,実世界のシナリオにおける機械生成テキストの検出に関する体系的研究を行う。
まず,最先端手法の有効性について検討し,実世界の多様な生成元やドメインが生成するテキストに対して著しく制限されていることを見出した。
さらに、事前訓練されたLLMエンコーダからの埋め込みのt-SNE可視化は、人間と機械生成したテキストを確実に区別できないことを示す。
そこで本研究では,実世界の多種多様なジェネレータやドメインが生成するテキストに対応するために,LLMと組込みサブクラスタリングを組み合わせた事前学習されたT5エンコーダを用いた機械生成テキスト検出システムT5LLMCipherを提案する。
提案手法は,9つのマシン生成テキストシステムと9つのドメインにまたがるアプローチを評価し,本手法が最先端の一般化機能を提供し,未発見のジェネレータとドメインで19.6\%のマシン生成テキストのf1スコアを平均的に増加させ,既存のアプローチを実行しているトップと比較し,93.6\%の精度でテキスト生成者を正しく識別する。
関連論文リスト
- Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated
Text [102.51430575139572]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。
本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-01-22T16:09:47Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - G3Detector: General GPT-Generated Text Detector [26.47122201110071]
本研究では,多分野にわたる合成テキストの同定に長けた,予測できないが強力な検出手法を提案する。
我々の検出器は、様々なモデルアーキテクチャと復号化戦略で一様に優れた性能を示す。
また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。
論文 参考訳(メタデータ) (2023-05-22T03:35:00Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text [25.80571756447762]
われわれはReal or Fake Text (RoFT)を紹介した。
本稿では,RoFTを用いたニュース記事の検出結果について述べる。
論文 参考訳(メタデータ) (2020-10-06T22:47:43Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。