論文の概要: Machine-generated text detection prevents language model collapse
- arxiv url: http://arxiv.org/abs/2502.15654v1
- Date: Fri, 21 Feb 2025 18:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:59.240895
- Title: Machine-generated text detection prevents language model collapse
- Title(参考訳): 機械生成テキスト検出は言語モデルの崩壊を防ぐ
- Authors: George Drayson, Vasileios Lampos,
- Abstract要約: 大規模言語モデル(LLM)は、Webでますます普及しています。
Webデータが事前トレーニングの主要なリソースであるため、将来のモデルは、未知の合成データに基づいてトレーニングされる。
これはモデル崩壊を招き、モデルが自身のエラーを補強し、モデルパフォーマンスの低下を経験する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As Large Language Models (LLMs) become increasingly prevalent, their generated outputs are proliferating across the web, risking a future where machine-generated content dilutes human-authored text. Since web data is the primary resource for LLM pretraining, future models will be trained on an unknown portion of synthetic data. This will lead to model collapse, a degenerative process which causes models to reinforce their own errors and experience a drop in model performance. In this study, we investigate the impact of decoding strategy on model collapse, where we analyse the characteristics of the generated data during recursive training, its similarity to human references and the resulting model performance. Using the decoding strategies that lead to the most significant model degradation, we tackle the question: how to avoid model collapse when the origin (human or synthetic) of the training data is unknown. We design a novel methodology based on resampling the data distribution using importance weights from our machine-generated text detector. Our method is validated on two LLM variants (GPT-2 and SmolLM2) on the open-ended text generation task, demonstrating that we can successfully prevent model collapse and when there is enough human-authored data in the training dataset, our method improves model performance.
- Abstract(参考訳): 大規模言語モデル(LLMs)が普及するにつれて、その生成した出力はWeb全体で増加し、機械生成されたコンテンツが人間の許可したテキストを希薄化する未来を危険にさらしている。
Web データは LLM 事前学習の主要なリソースであるため、将来のモデルは合成データの未知の部分に基づいて訓練される。
これはモデル崩壊を招き、モデルが自身のエラーを補強し、モデルパフォーマンスの低下を経験する。
本研究では,復号化戦略がモデル崩壊に与える影響について検討し,再帰学習中に生成されたデータの特徴,人的参照との類似性,結果のモデル性能について分析する。
トレーニングデータの起源(人的または合成的)が不明な場合、どのようにモデル崩壊を避けるかという問題に対処する。
我々は,機械生成テキスト検出器の重み付けによるデータ分布の再サンプリングに基づく新しい手法を設計する。
提案手法は,オープンエンドテキスト生成タスクにおける2つのLLM変種(GPT-2とSmolLM2)に対して検証を行い,モデル崩壊を効果的に防止できることを示すとともに,トレーニングデータセットに十分な人為的データが存在する場合,モデル性能を向上させる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。
ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T01:30:27Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。