論文の概要: Unsupervised and Distributional Detection of Machine-Generated Text
- arxiv url: http://arxiv.org/abs/2111.02878v1
- Date: Thu, 4 Nov 2021 14:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:00:16.275195
- Title: Unsupervised and Distributional Detection of Machine-Generated Text
- Title(参考訳): 機械生成テキストの教師なしと分布検出
- Authors: Matthias Gall\'e, Jos Rozen, Germ\'an Kruszewski, Hady Elsahar
- Abstract要約: 自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。
我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
- 参考スコア(独自算出の注目度): 1.552214657968262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The power of natural language generation models has provoked a flurry of
interest in automatic methods to detect if a piece of text is human or
machine-authored. The problem so far has been framed in a standard supervised
way and consists in training a classifier on annotated data to predict the
origin of one given new document. In this paper, we frame the problem in an
unsupervised and distributional way: we assume that we have access to a large
collection of unannotated documents, a big fraction of which is
machine-generated. We propose a method to detect those machine-generated
documents leveraging repeated higher-order n-grams, which we show over-appear
in machine-generated text as compared to human ones. That weak signal is the
starting point of a self-training setting where pseudo-labelled documents are
used to train an ensemble of classifiers. Our experiments show that leveraging
that signal allows us to rank suspicious documents accurately. Precision at
5000 is over 90% for top-k sampling strategies, and over 80% for nucleus
sampling for the largest model we used (GPT2-large). The drop with increased
size of model is small, which could indicate that the results hold for other
current and future large language models.
- Abstract(参考訳): 自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
これまでの問題は、標準的な教師付き方法でフレーム化されており、注釈付きデータで分類器を訓練し、与えられた1つの新しい文書の出所を予測する。
本稿では,この問題を教師なしかつ分散的な方法で構成する: 大量の無注釈文書の集合にアクセスできると仮定し,その大部分を機械で生成する。
そこで本研究では,人間に比べて機械生成テキストに過度に現れる高次n-gramの繰り返しを利用した,機械生成文書の検出手法を提案する。
この弱い信号は、擬似ラベル付き文書を使用して分類器のアンサンブルを訓練する自己学習設定の出発点である。
この信号を利用して不審な文書を正確にランク付けできることを示す実験を行った。
5000の精度はトップkサンプリング戦略では90%以上、使用した最大のモデル(GPT2-large)では80%以上である。
モデルのサイズが大きくなると減少が小さくなり、その結果が他の現在および将来の大きな言語モデルに当てはまる可能性がある。
関連論文リスト
- Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection [0.0]
そこで本研究では,機械が生成したテキストを,そこから派生した大きな言語モデルが未知の場合に検出する問題について検討する。
生成型(またはベース)言語モデルと識別型(またはスコアリング型)言語モデルとが同一である場合に高い精度で、ゼロショットモデルを用いてテキスト検出を行う。
論文 参考訳(メタデータ) (2024-06-18T12:58:01Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Evidence-Aware Inferential Text Generation with Vector Quantised
Variational AutoEncoder [104.25716317141321]
本稿では,大規模なテキストコーパスからイベントの証拠を自動的に発見し,その証拠を利用して推論テキストの生成を導く手法を提案する。
このアプローチは、Event2MindとATOMICの両方のデータセットで最先端のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-15T02:59:52Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。