論文の概要: Automatic Detection of Machine Generated Text: A Critical Survey
- arxiv url: http://arxiv.org/abs/2011.01314v1
- Date: Mon, 2 Nov 2020 20:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:55:51.080119
- Title: Automatic Detection of Machine Generated Text: A Critical Survey
- Title(参考訳): 機械生成テキストの自動検出:批判的調査
- Authors: Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan
- Abstract要約: テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを生成する。
TGMは、偽ニュースや偽商品レビューを自動的に生成することで、敵によって誤用される可能性がある。
TGMが生成したテキストと人間のテキストとを区別できる検出器は、そのような誤用を緩和する上で重要な役割を果たす。
- 参考スコア(独自算出の注目度): 19.186417923475144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text generative models (TGMs) excel in producing text that matches the style
of human language reasonably well. Such TGMs can be misused by adversaries,
e.g., by automatically generating fake news and fake product reviews that can
look authentic and fool humans. Detectors that can distinguish text generated
by TGM from human written text play a vital role in mitigating such misuse of
TGMs. Recently, there has been a flurry of works from both natural language
processing (NLP) and machine learning (ML) communities to build accurate
detectors for English. Despite the importance of this problem, there is
currently no work that surveys this fast-growing literature and introduces
newcomers to important research challenges. In this work, we fill this void by
providing a critical survey and review of this literature to facilitate a
comprehensive understanding of this problem. We conduct an in-depth error
analysis of the state-of-the-art detector and discuss research directions to
guide future work in this exciting area.
- Abstract(参考訳): テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを生成するのに優れている。
例えば、偽のニュースや偽の商品レビューを自動的に生成し、本物で愚かな人間に見えるようにすることで、このようなTGMは敵によって誤用される。
TGMが生成したテキストと人間のテキストとを区別できる検出器は、そのようなTGMの誤用を緩和する上で重要な役割を果たす。
近年,自然言語処理 (NLP) と機械学習 (ML) のコミュニティから,英語の正確な検出を行うための研究が盛んに行われている。
この問題の重要性にもかかわらず、この急速に成長する文献を調査し、重要な研究課題に新参者を紹介している研究は今のところ存在しない。
本研究では,この問題の包括的理解を促進するために,本論文の批判的調査とレビューを行うことにより,この空白を埋める。
我々は最先端検出器の詳細な誤差解析を行い、このエキサイティングな領域における今後の研究を導く研究の方向性について議論する。
関連論文リスト
- Detection of Machine-Generated Text: Literature Survey [0.0]
本研究の目的は,機械生成テキスト分野における成果と成果をコンパイルし,合成することである。
また、機械が生成するテキストの傾向を概観し、より大きな社会的意味を探求する。
論文 参考訳(メタデータ) (2024-01-02T01:44:15Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text [25.80571756447762]
われわれはReal or Fake Text (RoFT)を紹介した。
本稿では,RoFTを用いたニュース記事の検出結果について述べる。
論文 参考訳(メタデータ) (2020-10-06T22:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。