Fugu-MT 論文翻訳(概要): Self-Correcting Self-Consuming Loops for Generative Model Training

論文の概要: Self-Correcting Self-Consuming Loops for Generative Model Training

arxiv url: http://arxiv.org/abs/2402.07087v1
Date: Sun, 11 Feb 2024 02:34:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 17:46:24.042825
Title: Self-Correcting Self-Consuming Loops for Generative Model Training
Title（参考訳）: 生成モデル学習のための自己補正自己消費ループ
Authors: Nate Gillman, Michael Freeman, Daksh Aggarwal, Chia-Hong Hsu, Calvin Luo, Yonglong Tian, Chen Sun
Abstract要約: 機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。合成データを用いた表現学習の成功にもかかわらず、合成データを用いた生成モデルトレーニングは「自己消費ループ」を創出する本稿では,理想化された補正関数を導入することで,自己消費生成モデルの訓練を安定化することを目的とする。
参考スコア（独自算出の注目度）: 17.426683356697247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As synthetic data becomes higher quality and proliferates on the internet, machine learning models are increasingly trained on a mix of human- and machine-generated data. Despite the successful stories of using synthetic data for representation learning, using synthetic data for generative model training creates "self-consuming loops" which may lead to training instability or even collapse, unless certain conditions are met. Our paper aims to stabilize self-consuming generative model training. Our theoretical results demonstrate that by introducing an idealized correction function, which maps a data point to be more likely under the true data distribution, self-consuming loops can be made exponentially more stable. We then propose self-correction functions, which rely on expert knowledge (e.g. the laws of physics programmed in a simulator), and aim to approximate the idealized corrector automatically and at scale. We empirically validate the effectiveness of self-correcting self-consuming loops on the challenging human motion synthesis task, and observe that it successfully avoids model collapse, even when the ratio of synthetic data to real data is as high as 100%.
Abstract（参考訳）: 合成データがより高品質になり、インターネット上で増殖するにつれて、機械学習モデルは、人間と機械が生成したデータの混合に基づいてますます訓練されている。表現学習に合成データを使うことは成功したが、生成モデルのトレーニングに合成データを使用することで「自己消費ループ」が作成され、特定の条件が満たされない限り、トレーニング不安定や崩壊につながる可能性がある。本稿は,自己消費型生成モデルトレーニングの安定化を目的とする。理論的な結果は、真のデータ分布の下でデータポイントをより可能性の高い理想化補正関数を導入することにより、自己消費ループを指数関数的に安定させることができることを示した。次に、専門家の知識(例えばシミュレータでプログラムされた物理法則)に依存する自己補正関数を提案し、理想化補正器を自動的にかつ大規模に近似することを目指す。本研究では,人間の動作合成作業における自己修正自己消費ループの有効性を実証的に検証し,実データに対する合成データの比率が100%である場合でも,モデル崩壊を回避できることを示した。

関連論文リスト

Self-Consuming Generative Models with Adversarially Curated Data [7.535438563518571]
本研究では, 自己消費再学習ループにおいて, ノイズや逆向きにキュレートされたデータを用いて生成モデルがどのように進化するかを考察する。我々は、プラットフォームが悪質なユーザーを雇い、実際のユーザーの好みからライバルのモデルを誤認識させるような、競合する敵のシナリオに対する攻撃アルゴリズムを設計する。
論文参考訳（メタデータ） (2025-05-14T19:54:55Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。半合成データを得るために,人為的データに対するトークン編集を提案する。
論文参考訳（メタデータ） (2024-12-19T09:43:39Z)
Enhancing Object Detection Accuracy in Autonomous Vehicles Using Synthetic Data [0.8267034114134277]
機械学習モデルの性能は、トレーニングデータセットの性質とサイズに依存する。正確で信頼性の高い機械学習モデルを構築するためには、高品質、多様性、関連性、代表的トレーニングデータが不可欠である。十分に設計された合成データは、機械学習アルゴリズムの性能を向上させることができると仮定されている。
論文参考訳（メタデータ） (2024-11-23T16:38:02Z)
Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文参考訳（メタデータ） (2024-10-22T05:49:24Z)
Self-Improving Diffusion Models with Synthetic Data [12.597035060380001]
シンセティックデータを用いた自己IM拡散モデル(SIMS)は、拡散モデルのための新しい訓練概念である。 SIMSは自己合成データを使用して生成プロセス中に負のガイダンスを提供する。 MADを使わずに、自己生成合成データに対して反復的に訓練できる、最初の予防的生成AIアルゴリズムである。
論文参考訳（メタデータ） (2024-08-29T08:12:18Z)
Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文参考訳（メタデータ） (2024-06-12T21:28:28Z)
Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文参考訳（メタデータ） (2024-06-11T17:46:16Z)
Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文参考訳（メタデータ） (2024-04-01T18:31:24Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文参考訳（メタデータ） (2023-09-30T16:41:04Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文参考訳（メタデータ） (2022-09-07T15:15:12Z)
Synthesizing Irreproducibility in Deep Networks [2.28438857884398]
現代のディープネットワークは非生産性に苦しむ(非決定性または不特定化とも呼ばれる) 単一の非線形性や非常に単純なデータやモデルであっても、不再現性が生じることを示す。モデルの複雑さと非線形性の選択は、深いモデルを再現不能にする上で重要な役割を果たす。
論文参考訳（メタデータ） (2021-02-21T21:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。