論文の概要: How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN
- arxiv url: http://arxiv.org/abs/2111.09509v1
- Date: Thu, 18 Nov 2021 04:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:50:18.341880
- Title: How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN
- Title(参考訳): 言語モデルはトレーニングデータからどれくらいコピーしますか?
RAVENを用いたテキスト生成における言語的ノベルティの評価
- Authors: R. Thomas McCoy, Paul Smolensky, Tal Linzen, Jianfeng Gao, Asli
Celikyilmaz
- Abstract要約: 現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
- 参考スコア(独自算出の注目度): 63.79300884115027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current language models can generate high-quality text. Are they simply
copying text they have seen before, or have they learned generalizable
linguistic abstractions? To tease apart these possibilities, we introduce
RAVEN, a suite of analyses for assessing the novelty of generated text,
focusing on sequential structure (n-grams) and syntactic structure. We apply
these analyses to four neural language models (an LSTM, a Transformer,
Transformer-XL, and GPT-2). For local structure - e.g., individual dependencies
- model-generated text is substantially less novel than our baseline of
human-generated text from each model's test set. For larger-scale structure -
e.g., overall sentence structure - model-generated text is as novel or even
more novel than the human-generated baseline, but models still sometimes copy
substantially, in some cases duplicating passages over 1,000 words long from
the training set. We also perform extensive manual analysis showing that
GPT-2's novel text is usually well-formed morphologically and syntactically but
has reasonably frequent semantic issues (e.g., being self-contradictory).
- Abstract(参考訳): 現在の言語モデルは高品質なテキストを生成することができる。
彼らは単に以前見たテキストをコピーしただけなのか、それとも一般化可能な言語抽象化を学んだのか?
そこで本研究では,生成テキストの新規性評価のための分析スイートであるravenを,逐次構造(n-grams)と構文構造に着目して紹介する。
これらの分析を4つのニューラルネットワークモデル(LSTM, Transformer, Transformer-XL, GPT-2)に適用する。
ローカルな構造 - 例えば、個々の依存関係 - モデル生成テキストは、各モデルのテストセットから生成された人間の生成テキストのベースラインよりも、かなり新しくありません。
大規模構造の場合。
全体的な文構造 - モデル生成テキストは、人間の生成したベースラインと同じくらい、あるいはさらに新しいものであるが、モデルはまだかなりコピーされる場合があり、訓練セットから1000語以上の節を重複させる場合もある。
また, gpt-2 の新規テキストは, 形態学的, 統語論的によく形成されているが, 意味的問題(例えば, 自己矛盾)が多様であることを示す手作業解析を行った。
関連論文リスト
- Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs [19.073560504913356]
人造テキストと機械生成テキストの境界線は、ますますぼやけつつある。
本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
論文 参考訳(メタデータ) (2024-02-16T11:20:30Z) - Deep dive into language traits of AI-generated Abstracts [5.209583971923267]
ChatGPTのような生成言語モデルは、人間のような文章を生成する能力に注意を向けている。
本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出しようと試みる。
テキストの意味的特徴と語彙的特性を抽出し、従来の機械学習モデルがこれらの抽象概念を確実に検出できることを観察する。
論文 参考訳(メタデータ) (2023-12-17T06:03:33Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Uniform Complexity for Text Generation [4.867923281108005]
テキスト生成のための統一複雑度(UCTG)は,生成モデルに一様言語特性をプロンプトに関して観察させるという課題を提起する新しいベンチマークテストである。
GPT-2のようなモデルは、プロフェッショナルなテキストで微調整しても、代々使われる入力プロンプトの複雑さを維持するのに苦労している。
論文 参考訳(メタデータ) (2022-04-11T15:19:47Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z) - Russian Natural Language Generation: Creation of a Language Modelling
Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。
我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。
我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文 参考訳(メタデータ) (2020-05-05T20:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。