論文の概要: Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images
- arxiv url: http://arxiv.org/abs/2405.20469v2
- Date: Mon, 1 Jul 2024 02:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:50:34.235819
- Title: Is Synthetic Data all We Need? Benchmarking the Robustness of Models Trained with Synthetic Images
- Title(参考訳): 合成データがすべて必要か? : 合成画像を用いたモデルのロバスト性の評価
- Authors: Krishnakant Singh, Thanush Navaratnam, Jannik Holmer, Simone Schaub-Meyer, Stefan Roth,
- Abstract要約: 本稿では,3種類の合成クローンモデル,すなわち,教師付き,自己監督型,マルチモーダル型の最初のベンチマークを行う。
合成クローンは、実際のデータで訓練されたモデルよりも、敵対的および現実的なノイズの影響を受けやすいことがわかりました。
- 参考スコア(独自算出の注目度): 11.70758559522617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A long-standing challenge in developing machine learning approaches has been the lack of high-quality labeled data. Recently, models trained with purely synthetic data, here termed synthetic clones, generated using large-scale pre-trained diffusion models have shown promising results in overcoming this annotation bottleneck. As these synthetic clone models progress, they are likely to be deployed in challenging real-world settings, yet their suitability remains understudied. Our work addresses this gap by providing the first benchmark for three classes of synthetic clone models, namely supervised, self-supervised, and multi-modal ones, across a range of robustness measures. We show that existing synthetic self-supervised and multi-modal clones are comparable to or outperform state-of-the-art real-image baselines for a range of robustness metrics - shape bias, background bias, calibration, etc. However, we also find that synthetic clones are much more susceptible to adversarial and real-world noise than models trained with real data. To address this, we find that combining both real and synthetic data further increases the robustness, and that the choice of prompt used for generating synthetic images plays an important part in the robustness of synthetic clones.
- Abstract(参考訳): 機械学習アプローチの開発における長年の課題は、高品質なラベル付きデータがないことである。
近年、大規模な事前学習拡散モデルを用いて生成された合成クローンと呼ばれる純粋合成データを用いて訓練されたモデルは、このアノテーションボトルネックを克服する有望な結果を示している。
これらの合成クローンモデルが進行するにつれて、それらは現実世界の挑戦的な設定にデプロイされる可能性が高いが、その適合性はまだ検討されていない。
我々の研究は、様々なロバストネス尺度を用いて、3種類の合成クローンモデル、すなわち、教師付き、自己監督型、マルチモーダルモデルの最初のベンチマークを提供することによって、このギャップに対処する。
既存の合成自己監督クローンとマルチモーダルクローンは、形状バイアス、背景バイアス、キャリブレーションなど、さまざまなロバストネス指標に対して、最先端のリアルタイムベースラインに匹敵する、あるいは優れた性能を発揮することを示す。
しかし、合成クローンは、実際のデータで訓練されたモデルよりも、敵対的および現実的なノイズの影響を受けやすいことも判明した。
これを解決するために, 実データと合成データを組み合わせることで, より堅牢性が向上し, 合成画像の生成に使用するプロンプトの選択が, 合成クローンの堅牢性において重要な役割を担っていることがわかった。
関連論文リスト
- SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception [62.71374902455154]
ニューラルレンダリングの最近の進歩を利用して、静的および動的ノベルビューUAVベースの画像レンダリングを改善する。
本研究では,主に実データと合成データのハイブリッドセットに基づいて最先端検出モデルが最適化された場合,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-25T00:20:37Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real
Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。
本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。
提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文 参考訳(メタデータ) (2023-03-20T12:06:14Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Synthetic Data for Model Selection [2.4499092754102874]
合成データはモデル選択に有用であることを示す。
そこで本研究では,実領域に適合する合成誤差推定をキャリブレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T09:52:03Z) - Synthetic Data and Hierarchical Object Detection in Overhead Imagery [0.0]
衛星画像における低・ゼロサンプル学習を向上させるための新しい合成データ生成および拡張技術を開発した。
合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。
論文 参考訳(メタデータ) (2021-01-29T22:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。