Fugu-MT 論文翻訳(概要): Why language models collapse when trained on recursively generated text

論文の概要: Why language models collapse when trained on recursively generated text

arxiv url: http://arxiv.org/abs/2412.14872v1
Date: Thu, 19 Dec 2024 14:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.156303
Title: Why language models collapse when trained on recursively generated text
Title（参考訳）: 再帰的に生成したテキストで学習した言語モデルが崩壊する理由
Authors: Lecheng Wang, Xianjie Shi, Ge Li, Jia Li, Yihong Dong, Xuanming Zhang, Wenpin Jiao, Hong Mei,
Abstract要約: 言語モデル(LM)は、インターネット上でテキストを生成するために広く使われている。本稿では2つの側面から既存の知識に貢献する。 LM崩壊の理論的証明を示す。
参考スコア（独自算出の注目度）: 26.117724170912552
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Language models (LMs) have been widely used to generate text on the Internet. The generated text is often collected into the training corpus of the next generations of LMs. Previous work has experimentally found that LMs collapse when trained on recursively generated text. This paper contributes to existing knowledge from two aspects. We present a theoretical proof of LM collapse. Our proof reveals the cause of LM collapse and proves that all auto-regressive LMs will definitely collapse. We present a new finding: the performance of LMs gradually declines when trained on recursively generated text until they perform no better than a randomly initialized LM. The trained LMs produce large amounts of repetitive text and perform poorly across a wide range of natural language tasks. The above proof and new findings deepen our understanding of LM collapse and offer valuable insights that may inspire new training techniques to mitigate this threat.
Abstract（参考訳）: 言語モデル(LM)は、インターネット上でテキストを生成するために広く使われている。生成されたテキストは、しばしば次世代のLMのトレーニングコーパスに収集される。以前の研究では、再帰的に生成されたテキストでトレーニングすると、LMが崩壊することが実験的に確認されている。本稿では2つの側面から既存の知識に貢献する。 LM崩壊の理論的証明を示す。我々の証明は、LM崩壊の原因を明らかにし、全ての自己回帰型LMが確実に崩壊することを証明している。そこで本研究では,再帰的に生成したテキストに対して,ランダムに初期化したLMに比較して性能が向上するまで,LMの性能は徐々に低下することを示す。訓練されたLMは大量の反復テキストを生成し、広範囲の自然言語タスクで性能が良くない。上記の証明と新たな発見は、LM崩壊の理解を深め、この脅威を軽減するために新しいトレーニングテクニックを刺激する貴重な洞察を提供する。

関連論文リスト

PuckTrick: A Library for Making Synthetic Data More Realistic [46.198289193451146]
Pucktrickは、制御エラーを導入して、合成データセットを体系的に汚染するように設計されたPythonライブラリである。系統的なデータ汚染がモデル性能に与える影響を評価する。その結果、汚染された合成データに基づいて訓練されたMLモデルは、純粋に合成されたエラーのないデータで訓練されたモデルよりも優れていた。
論文参考訳（メタデータ） (2025-06-23T10:51:45Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Machine-generated text detection prevents language model collapse [17.34282527020344]
復号化戦略がモデル崩壊に与える影響について検討する。我々は,機械生成テキスト検出器を訓練し,モデル崩壊を緩和するための重要なサンプリング手法を提案する。
論文参考訳（メタデータ） (2025-02-21T18:22:36Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文参考訳（メタデータ） (2024-10-22T05:49:24Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文参考訳（メタデータ） (2024-06-18T21:31:19Z)
Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文参考訳（メタデータ） (2024-06-11T17:46:16Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文参考訳（メタデータ） (2024-03-05T18:22:33Z)
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-01-16T18:58:37Z)
Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。 RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文参考訳（メタデータ） (2023-06-23T10:18:02Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文参考訳（メタデータ） (2022-12-28T18:52:44Z)
Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文参考訳（メタデータ） (2022-06-09T17:16:43Z)
Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。 LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文参考訳（メタデータ） (2022-01-28T21:38:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。