論文の概要: Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls
- arxiv url: http://arxiv.org/abs/2404.17143v1
- Date: Fri, 26 Apr 2024 04:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:04:24.298091
- Title: Quantifying Memorization of Domain-Specific Pre-trained Language Models using Japanese Newspaper and Paywalls
- Title(参考訳): 日本語新聞とペイウォールを用いたドメイン特化事前学習言語モデルの記憶量の定量化
- Authors: Shotaro Ishihara,
- Abstract要約: 日本語新聞記事の限定コーパスを用いて,ドメイン固有言語モデルを事前訓練した。
実験の結果、ドメイン固有のPLMが大規模にコピー&ペーストされることが判明した。
我々の評価は、新聞のペイウォールに焦点をあてることで、データ汚染の懸念から緩和される。
- 参考スコア(独自算出の注目度): 0.5801621787540268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dominant pre-trained language models (PLMs) have been successful in high-quality natural language generation. However, the analysis of their generation is not mature: do they acquire generalizable linguistic abstractions, or do they simply memorize and recover substrings of the training data? Especially, few studies focus on domain-specific PLM. In this study, we pre-trained domain-specific GPT-2 models using a limited corpus of Japanese newspaper articles and quantified memorization of training data by comparing them with general Japanese GPT-2 models. Our experiments revealed that domain-specific PLMs sometimes "copy and paste" on a large scale. Furthermore, we replicated the empirical finding that memorization is related to duplication, model size, and prompt length, in Japanese the same as in previous English studies. Our evaluations are relieved from data contamination concerns by focusing on newspaper paywalls, which prevent their use as training data. We hope that our paper encourages a sound discussion such as the security and copyright of PLMs.
- Abstract(参考訳): 支配的な事前学習型言語モデル(PLM)は高品質な自然言語生成に成功している。
しかし、それらの世代の分析は成熟していない:それらは一般化可能な言語抽象化を取得するのか、それとも単にトレーニングデータのサブストリングを記憶し、復元するだけなのか?
特にドメイン特異的なPLMに焦点を当てた研究はほとんどない。
本研究では,日本語新聞記事の限定コーパスを用いて,ドメイン固有GPT-2モデルを事前学習し,一般の日本語GPT-2モデルと比較することにより,トレーニングデータの定量化を行った。
実験の結果,ドメイン固有のPLMが大規模にコピー&ペーストされることが判明した。
さらに, 過去の英語研究と同様, 暗記は重複, モデルサイズ, 即時長と関係があることを実証的に再現した。
本評価は, 新聞ペイウォールに着目したデータ汚染の懸念から緩和され, トレーニングデータとしての利用を妨げている。
PLMのセキュリティや著作権など,健全な議論を促すことを願っています。
関連論文リスト
- CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its
Applications [4.482886054198201]
JCSEは、文を生成し、それらをターゲットドメインで利用可能な文で合成することで、トレーニングデータを生成する。
次に、日本語モデルを対象領域の特定のタスクに適応させるために、対照的な学習に使用される矛盾した文対を生成する。
論文 参考訳(メタデータ) (2023-01-19T17:41:46Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。