論文の概要: Do Language Models Plagiarize?
- arxiv url: http://arxiv.org/abs/2203.07618v1
- Date: Tue, 15 Mar 2022 03:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 08:48:38.881759
- Title: Do Language Models Plagiarize?
- Title(参考訳): 言語モデルは盗作するか?
- Authors: Jooyoung Lee, Thai Le, Jinghui Chen, Dongwon Lee
- Abstract要約: 人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
- 参考スコア(独自算出の注目度): 22.02731537718498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past literature has illustrated that language models do not fully understand
the context and sensitivity of text and can sometimes memorize phrases or
sentences present in their training sets. In this paper, we investigate whether
they not only memorize but also plagiarize training samples when generating
artificial texts. Our findings support that they, especially GPT-2, reuse
particular pieces of texts from the training corpus with or without
obfuscation. We have four main results: 1) language models with more capacity
plagiarize more; 2) fine-tuned language models demonstrate differing patterns
of plagiarism based on characteristics of auxiliary data; 3) sampling from
truncated language modeling distributions tends to heighten the degree of
plagiarism as opposed to temperature sampling, and 4) plagiarism in language
models can have serious privacy consequences. Overall, our work implies that
future research on neural language models should take precautions to avoid
models plagiarizing their training datasets.
- Abstract(参考訳): 過去の文献では、言語モデルはテキストの文脈や感受性を十分に理解しておらず、訓練セットにある句や文を記憶することがある。
本稿では, 人工テキストを生成する際に, 記憶だけでなく, 訓練サンプルの盗用も検討する。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
主な結果は4つあります
1) より多くの能力を有する言語モデル
2 微調整された言語モデルは、補助データの特徴に基づく盗作の異なるパターンを示す。
3)断続的言語モデル分布からのサンプリングは,温度サンプリングよりも盗作の程度を高くする傾向がある。
4) 言語モデルにおける盗作は、重大なプライバシー影響をもたらす可能性がある。
全体として、我々の研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために予防措置を講じるべきであることを示唆している。
関連論文リスト
- Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。
一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。
適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文 参考訳(メタデータ) (2024-11-15T14:55:01Z) - FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models [38.76912842622624]
プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。
本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T19:17:00Z) - Detecting Mode Collapse in Language Models via Narration [0.0]
3つのOpenAI言語モデルからサンプリングした4,374のストーリーについて検討した。
我々は、GPT-3の連続バージョンが「モード崩壊」の度合いの上昇に悩まされていることを示す。
社会学シミュレーションに言語モデルを用いたい研究者にとって,本手法と結果が重要である。
論文 参考訳(メタデータ) (2024-02-06T23:52:58Z) - Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Forgetting Private Textual Sequences in Language Models via
Leave-One-Out Ensemble [13.893379594151533]
そこで本研究では,モデルから忘れられる必要のあるテキストシーケンスを学習するための,新たなアンサンブル手法を提案する。
LibriSpeechとWikiText-103データセットの実験では、提案手法は他のデータセットよりも優れたプライバシーとユーティリティのトレードオフを実現することが示されている。
論文 参考訳(メタデータ) (2023-09-28T00:43:18Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。