論文の概要: Theoretical Proof that Generated Text in the Corpus Leads to the Collapse of Auto-regressive Language Models
- arxiv url: http://arxiv.org/abs/2412.14872v2
- Date: Tue, 11 Feb 2025 12:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 17:19:38.635193
- Title: Theoretical Proof that Generated Text in the Corpus Leads to the Collapse of Auto-regressive Language Models
- Title(参考訳): コーパスで生成したテキストが自己回帰言語モデルの崩壊につながる理論的証明
- Authors: Lecheng Wang, Xianjie Shi, Ge Li, Jia Li, Xuanming Zhang, Yihong Dong, Wenpin Jiao, Hong Mei,
- Abstract要約: 本稿では,コーパス(World Wide Webなど)が生成したテキストを組み込むと,LM崩壊が発生するという理論的証拠を示す。
我々は, LMトレーニングにおいて, 生成テキストの量が増加している現状について, 懸念を表明する。
- 参考スコア(独自算出の注目度): 26.117724170912552
- License:
- Abstract: Auto-regressive language models (LMs) have been widely used to generate text on the World Wide Web. The generated text is often collected into the training corpus of the next generations of LMs. Previous work experimentally found that LMs collapse when trained on recursively generated text. This paper presents theoretical proof that once a corpus (such as the World Wide Web) begins to incorporate generated text, and the training text of each LM is sampled from this corpus, then no matter how small the amount of text generated by each LM that enters the corpus is, after a sufficient amount of time, LM collapse is bound to occur. Our proof is validated by a series of experiments showing that the collapsed LMs perform no better than an untrained LM with randomly initialized parameters. By proving the existence of LM collapse, we express our concerns about the current situation in which an increasing amount of generated text may be used in LM training. The source code is available in the online data warehouse: https://github.com/wanglc02/generated-data
- Abstract(参考訳): 自動回帰言語モデル(LM)は、World Wide Web上でテキストを生成するために広く使われている。
生成されたテキストは、しばしば次世代のLMのトレーニングコーパスに収集される。
以前の研究は、再帰的に生成されたテキストで訓練すると、LMが崩壊することを発見した。
本稿では, コーパス(World Wide Webなど)が生成したテキストを組み込み始めると, このコーパスから各LMのトレーニングテキストをサンプリングし, コーパスに入力した各LMが生成したテキストの量が, 十分な時間経過後であっても, LM崩壊が発生することを理論的に証明する。
本研究は,崩壊したLMがランダムに初期化パラメータを持つ未学習LMより性能が良くないことを示す一連の実験により検証した。
LM崩壊の存在を証明し, LMトレーニングにおいて, 生成テキストの量が増大している現状について, 懸念を表明する。
ソースコードは https://github.com/wanglc02/ generated-data で公開されている。
関連論文リスト
- Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文 参考訳(メタデータ) (2023-06-23T10:18:02Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。
より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。
そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-09T17:16:43Z) - Fingerprinting Fine-tuned Language Models in the Wild [6.7034293304862755]
本研究では,野生における微調整型LMの大規模指紋認証の問題点について検討する。
その結果, 微調整自体が, 微調整による合成テキストの生成に最も有効であることが示唆された。
論文 参考訳(メタデータ) (2021-06-03T09:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。