論文の概要: Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data?
- arxiv url: http://arxiv.org/abs/2504.03814v2
- Date: Tue, 08 Apr 2025 08:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 10:05:15.399875
- Title: Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data?
- Title(参考訳): LLMにおける再帰的トレーニングループ: トレーニングデータプロパティは、生成されたデータの分散シフトをどう変調するか?
- Authors: Grgur Kovač, Jérémy Perez, Rémy Portelas, Peter Ford Dominey, Pierre-Yves Oudeyer,
- Abstract要約: 本研究では,人間のデータ特性が反復学習ループにおける分布シフトダイナミクスに与える影響について検討する。
まず,4つのデータセットを比較することで,分布変化のダイナミクスが人体データによって大きく異なることを確認した。
次に、政治バイアスの進化に注目し、観察されたシフトのタイプ(バイアス低減、増幅、反転)が、人間の(真の)分布の政治的傾向に依存することを発見する。
- 参考スコア(独自算出の注目度): 18.384331170368416
- License:
- Abstract: Large language models (LLMs) are increasingly contributing to the creation of content on the Internet. This creates a feedback loop as subsequent generations of models will be trained on this generated, synthetic data. This phenomenon is receiving increasing interest, in particular because previous studies have shown that it may lead to distribution shift - models misrepresent and forget the true underlying distributions of human data they are expected to approximate (e.g. resulting in a drastic loss of quality). In this study, we study the impact of human data properties on distribution shift dynamics in iterated training loops. We first confirm that the distribution shift dynamics greatly vary depending on the human data by comparing four datasets (two based on Twitter and two on Reddit). We then test whether data quality may influence the rate of this shift. We find that it does on the twitter, but not on the Reddit datasets. We then focus on a Reddit dataset and conduct a more exhaustive evaluation of a large set of dataset properties. This experiment associated lexical diversity with larger, and semantic diversity with smaller detrimental shifts, suggesting that incorporating text with high lexical (but limited semantic) diversity could exacerbate the degradation of generated text. We then focus on the evolution of political bias, and find that the type of shift observed (bias reduction, amplification or inversion) depends on the political lean of the human (true) distribution. Overall, our work extends the existing literature on the consequences of recursive fine-tuning by showing that this phenomenon is highly dependent on features of the human data on which training occurs. This suggests that different parts of internet (e.g. GitHub, Reddit) may undergo different types of shift depending on their properties.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インターネット上のコンテンツの作成にますます貢献している。
これにより、後の世代のモデルがこの生成された合成データに基づいてトレーニングされるため、フィードバックループが生成される。
この現象は、特に以前の研究では、それが分布シフトにつながる可能性があることが示されており、モデルが予測される人間のデータの真の基礎的な分布を誤って表現し忘れている(例えば、品質が劇的に低下する)ため、関心が増している。
本研究では,人間のデータ特性が反復学習ループにおける分布シフトダイナミクスに与える影響について検討した。
まず、4つのデータセット(TwitterとRedditの2つ)を比較して、分布シフトのダイナミクスが人体データによって大きく異なることを確認した。
そして、このシフトの速度にデータ品質が影響を及ぼすかどうかをテストする。
Redditのデータセットには載っていません。
次に、Redditデータセットに集中し、大規模なデータセットプロパティのより徹底的な評価を行います。
この実験は、語彙の多様性をより大きく、意味的な多様性を小さくし、高い語彙(が限定的な意味)の多様性にテキストを組み込むことで、生成されたテキストの劣化を悪化させる可能性があることを示唆した。
次に、政治バイアスの進化に注目し、観察されたシフトのタイプ(バイアス低減、増幅、反転)が、人間の(真の)分布の政治的傾向に依存することを発見する。
全体として、本研究は、この現象がトレーニングが行われる人間のデータの特徴に大きく依存していることを示し、再帰的な微調整の結果に関する既存の文献を拡張している。
これは、インターネットのさまざまな部分(GitHub、Redditなど)が、プロパティによって異なるタイプのシフトを行う可能性があることを示唆している。
関連論文リスト
- How Does Data Diversity Shape the Weight Landscape of Neural Networks? [2.89287673224661]
本稿では, ニューラルネットワークのパラメータ空間に対する降雨量, 重量減衰量, 騒音増大の影響について検討する。
我々は、多様なデータが、ドロップアウトと同様の方法で重量景観に影響を与えることを観察する。
合成データにより、実際の入力データにより多くの多様性がもたらされ、アウト・オブ・ディストリビューションテストインスタンスの性能が向上する、と結論付けている。
論文 参考訳(メタデータ) (2024-10-18T16:57:05Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues [19.4921353136871]
実験サンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと、テストデータが観察された不変性と急激な特徴の異なる相関を示す場合の相関シフトの2種類について検討した。
そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。
論文 参考訳(メタデータ) (2023-05-09T23:40:23Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Leaving Reality to Imagination: Robust Classification via Generated
Datasets [24.411444438920988]
近年のロバスト性に関する研究では、テストセットと同様のデータセットでトレーニングされたニューラルイメージ分類器間での顕著なパフォーマンスギャップが明らかになった。
生成したデータセットは、画像分類器の自然な堅牢性にどのように影響するのか?
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-02-05T22:49:33Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。