論文の概要: Do Language Models Plagiarize?
- arxiv url: http://arxiv.org/abs/2203.07618v1
- Date: Tue, 15 Mar 2022 03:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 08:48:38.881759
- Title: Do Language Models Plagiarize?
- Title(参考訳): 言語モデルは盗作するか?
- Authors: Jooyoung Lee, Thai Le, Jinghui Chen, Dongwon Lee
- Abstract要約: 人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
- 参考スコア(独自算出の注目度): 22.02731537718498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past literature has illustrated that language models do not fully understand
the context and sensitivity of text and can sometimes memorize phrases or
sentences present in their training sets. In this paper, we investigate whether
they not only memorize but also plagiarize training samples when generating
artificial texts. Our findings support that they, especially GPT-2, reuse
particular pieces of texts from the training corpus with or without
obfuscation. We have four main results: 1) language models with more capacity
plagiarize more; 2) fine-tuned language models demonstrate differing patterns
of plagiarism based on characteristics of auxiliary data; 3) sampling from
truncated language modeling distributions tends to heighten the degree of
plagiarism as opposed to temperature sampling, and 4) plagiarism in language
models can have serious privacy consequences. Overall, our work implies that
future research on neural language models should take precautions to avoid
models plagiarizing their training datasets.
- Abstract(参考訳): 過去の文献では、言語モデルはテキストの文脈や感受性を十分に理解しておらず、訓練セットにある句や文を記憶することがある。
本稿では, 人工テキストを生成する際に, 記憶だけでなく, 訓練サンプルの盗用も検討する。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
主な結果は4つあります
1) より多くの能力を有する言語モデル
2 微調整された言語モデルは、補助データの特徴に基づく盗作の異なるパターンを示す。
3)断続的言語モデル分布からのサンプリングは,温度サンプリングよりも盗作の程度を高くする傾向がある。
4) 言語モデルにおける盗作は、重大なプライバシー影響をもたらす可能性がある。
全体として、我々の研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために予防措置を講じるべきであることを示唆している。
関連論文リスト
- Detecting Mode Collapse in Language Models via Narration [0.0]
3つのOpenAI言語モデルからサンプリングした4,374のストーリーについて検討した。
我々は、GPT-3の連続バージョンが「モード崩壊」の度合いの上昇に悩まされていることを示す。
社会学シミュレーションに言語モデルを用いたい研究者にとって,本手法と結果が重要である。
論文 参考訳(メタデータ) (2024-02-06T23:52:58Z) - Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
例えば、そのようなモデルは、盗作、偽情報、スパム、フィッシングに使用することができる。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Crosslingual Structural Priming and the Pre-Training Dynamics of
Bilingual Language Models [6.845954748361076]
構造プライミングを用いて、モデル出力に対する因果効果を持つ抽象文法表現をテストする。
オランダ語と英語のバイリンガル設定にアプローチを拡張し,事前学習時のオランダ語と英語のモデルを評価する。
また,第2言語に曝露すると,言語間構造的プライミング効果が早期に出現し,その言語でのデータトークンが100万個未満であることが判明した。
論文 参考訳(メタデータ) (2023-10-11T22:57:03Z) - Forgetting Private Textual Sequences in Language Models via
Leave-One-Out Ensemble [13.893379594151533]
そこで本研究では,モデルから忘れられる必要のあるテキストシーケンスを学習するための,新たなアンサンブル手法を提案する。
LibriSpeechとWikiText-103データセットの実験では、提案手法は他のデータセットよりも優れたプライバシーとユーティリティのトレードオフを実現することが示されている。
論文 参考訳(メタデータ) (2023-09-28T00:43:18Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。