論文の概要: Machine-generated text detection prevents language model collapse
- arxiv url: http://arxiv.org/abs/2502.15654v2
- Date: Sun, 16 Mar 2025 08:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:29.527991
- Title: Machine-generated text detection prevents language model collapse
- Title(参考訳): 機械生成テキスト検出は言語モデルの崩壊を防ぐ
- Authors: George Drayson, Vasileios Lampos,
- Abstract要約: 本研究では,デコード戦略がモデル崩壊に与える影響について検討する。
我々は,機械生成テキスト検出器を訓練し,モデル崩壊を緩和するための重要なサンプリング手法を提案する。
モデル崩壊を防止できるだけでなく、十分な人為的なサンプルが存在する場合に性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As Large Language Models (LLMs) become increasingly prevalent, their generated outputs are proliferating across the web, risking a future where machine-generated content dilutes human-authored text. Since online data is the primary resource for LLM pre-training, subsequent models could be trained on an unknown portion of synthetic samples. This will lead to model collapse, a degenerative process whereby LLMs reinforce their own errors, and ultimately yield a declining performance. In this study, we investigate the impact of decoding strategy on model collapse, analysing the characteristics of text at each model generation, the similarity to human references, and the resulting model performance. Using the decoding strategies that lead to the most significant degradation, we evaluate model collapse in more realistic scenarios where the origin of the data (human or synthetic) is unknown. We train a machine-generated text detector and propose an importance sampling approach to alleviate model collapse. Our method is validated on two LLM variants (GPT-2 and SmolLM2) on the open-ended text generation task. We demonstrate that it can not only prevent model collapse but also improve performance when sufficient human-authored samples are present.
- Abstract(参考訳): 大規模言語モデル(LLMs)が普及するにつれて、その生成した出力はWeb全体で増加し、機械生成されたコンテンツが人間の許可したテキストを希薄化する未来を危険にさらしている。
オンラインデータはLLM事前学習の主要なリソースであるため、その後のモデルは未知の合成サンプルで訓練することができる。
これはモデル崩壊を招き、LLMは自身のエラーを補強し、最終的に性能を低下させる。
本研究では,復号化戦略がモデル崩壊に与える影響,各モデル生成時のテキストの特性,人間参照との類似性,モデル性能に与える影響について検討する。
最も顕著な劣化につながるデコード戦略を用いて、データ(人間または合成)の起源が不明なより現実的なシナリオでモデル崩壊を評価する。
我々は,機械生成テキスト検出器を訓練し,モデル崩壊を緩和するための重要なサンプリング手法を提案する。
本手法は,オープンエンドテキスト生成タスクにおいて,2つのLLM変種(GPT-2とSmolLM2)に対して検証を行う。
モデル崩壊を防止できるだけでなく、十分な人為的なサンプルが存在する場合に性能を向上させることができることを示す。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。
ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T01:30:27Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。