論文の概要: Dealing with Synthetic Data Contamination in Online Continual Learning
- arxiv url: http://arxiv.org/abs/2411.13852v1
- Date: Thu, 21 Nov 2024 05:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:05.324690
- Title: Dealing with Synthetic Data Contamination in Online Continual Learning
- Title(参考訳): オンライン連続学習における合成データ汚染対策
- Authors: Maorong Wang, Nicolas Michel, Jiafeng Mao, Toshihiko Yamasaki,
- Abstract要約: AI生成画像の普及は、明確に特定されていない機械学習コミュニティに副作用をもたらす可能性がある。
コンピュータビジョンにおけるディープラーニングの成功は、インターネット上で収集された膨大なデータセットによって駆動される。
- 参考スコア(独自算出の注目度): 21.55295185505081
- License:
- Abstract: Image generation has shown remarkable results in generating high-fidelity realistic images, in particular with the advancement of diffusion-based models. However, the prevalence of AI-generated images may have side effects for the machine learning community that are not clearly identified. Meanwhile, the success of deep learning in computer vision is driven by the massive dataset collected on the Internet. The extensive quantity of synthetic data being added to the Internet would become an obstacle for future researchers to collect "clean" datasets without AI-generated content. Prior research has shown that using datasets contaminated by synthetic images may result in performance degradation when used for training. In this paper, we investigate the potential impact of contaminated datasets on Online Continual Learning (CL) research. We experimentally show that contaminated datasets might hinder the training of existing online CL methods. Also, we propose Entropy Selection with Real-synthetic similarity Maximization (ESRM), a method to alleviate the performance deterioration caused by synthetic images when training online CL models. Experiments show that our method can significantly alleviate performance deterioration, especially when the contamination is severe. For reproducibility, the source code of our work is available at https://github.com/maorong-wang/ESRM.
- Abstract(参考訳): 画像生成は、特に拡散モデルの発展に伴い、高忠実度リアルな画像を生成する際、顕著な結果を示した。
しかし、AI生成画像の普及は、明確に識別されていない機械学習コミュニティに副作用をもたらす可能性がある。
一方、コンピュータビジョンにおけるディープラーニングの成功は、インターネット上で収集された膨大なデータセットによって支えられている。
インターネットに膨大な量の合成データを追加することは、将来の研究者がAI生成コンテンツなしで「クリーン」なデータセットを集めるのに障害となる。
以前の研究では、合成画像によって汚染されたデータセットを使用することで、トレーニングに使用する場合のパフォーマンスが低下する可能性があることが示されている。
本稿では,汚染データセットがオンライン連続学習(CL)研究に与える影響について検討する。
汚染されたデータセットが既存のオンラインCL法の訓練を妨げる可能性があることを実験的に示す。
また,オンラインCLモデルのトレーニングにおいて,合成画像による性能劣化を軽減するために,実合成類似度最大化(ESRM)を用いたエントロピー選択を提案する。
実験により, 汚染が深刻である場合に, 性能劣化を著しく軽減できることがわかった。
再現性のために、私たちの作業のソースコードはhttps://github.com/maorong-wang/ESRM.comで公開されています。
関連論文リスト
- Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Generating Synthetic Satellite Imagery With Deep-Learning Text-to-Image Models -- Technical Challenges and Implications for Monitoring and Verification [46.42328086160106]
コンディショニング機構を用いて合成衛星画像の作成方法について検討する。
評価結果は,信頼性と最先端の指標に基づいて評価する。
本稿では,衛星画像の監視と検証の文脈における意義について論じる。
論文 参考訳(メタデータ) (2024-04-11T14:00:20Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - An Adversarial Active Sampling-based Data Augmentation Framework for
Manufacturable Chip Design [55.62660894625669]
リソグラフィーモデリングは、チップ設計マスクが製造可能であることを保証するため、チップ設計において重要な問題である。
機械学習の最近の進歩は、時間を要するリソグラフィーシミュレーションをディープニューラルネットワークに置き換えるための代替ソリューションを提供している。
本稿では,限られたデータのジレンマを解消し,機械学習モデルの性能を向上させるために,データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-27T20:53:39Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - CoReD: Generalizing Fake Media Detection with Continual Representation
using Distillation [17.97648576135166]
本研究では、継続学習(CoL)、表現学習(ReL)、知識蒸留(KD)という概念を用いた継続表現法を提案する。
我々はCoReDを設計し、新しいディープフェイクおよびGAN生成合成顔データセット上で逐次ドメイン適応タスクを実行する。
提案手法は,低品質のディープフェイク映像やGAN生成画像の検出に有効であることを示す。
論文 参考訳(メタデータ) (2021-07-06T06:07:17Z) - Synthetic Data for Model Selection [2.4499092754102874]
合成データはモデル選択に有用であることを示す。
そこで本研究では,実領域に適合する合成誤差推定をキャリブレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T09:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。