論文の概要: Knowing the Distance: Understanding the Gap Between Synthetic and Real
Data For Face Parsing
- arxiv url: http://arxiv.org/abs/2303.15219v1
- Date: Mon, 27 Mar 2023 13:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:04:17.340454
- Title: Knowing the Distance: Understanding the Gap Between Synthetic and Real
Data For Face Parsing
- Title(参考訳): 距離を知る: 顔分析のための合成データと実データとのギャップを理解する
- Authors: Eli Friedman, Assaf Lehr, Alexey Gruzdev, Vladimir Loginov, Max Kogan,
Moran Rubin, Orly Zvitia
- Abstract要約: 分散ギャップがパフォーマンスギャップの最大の貢献者であることを示し、そのギャップの50%以上を占めている。
これは、合成データが実際のデータ、特に実際のデータが限定的または入手が困難である場合に、実際のデータの代替となることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of synthetic data for training computer vision algorithms has become
increasingly popular due to its cost-effectiveness, scalability, and ability to
provide accurate multi-modality labels. Although recent studies have
demonstrated impressive results when training networks solely on synthetic
data, there remains a performance gap between synthetic and real data that is
commonly attributed to lack of photorealism. The aim of this study is to
investigate the gap in greater detail for the face parsing task. We
differentiate between three types of gaps: distribution gap, label gap, and
photorealism gap. Our findings show that the distribution gap is the largest
contributor to the performance gap, accounting for over 50% of the gap. By
addressing this gap and accounting for the labels gap, we demonstrate that a
model trained on synthetic data achieves comparable results to one trained on a
similar amount of real data. This suggests that synthetic data is a viable
alternative to real data, especially when real data is limited or difficult to
obtain. Our study highlights the importance of content diversity in synthetic
datasets and challenges the notion that the photorealism gap is the most
critical factor affecting the performance of computer vision models trained on
synthetic data.
- Abstract(参考訳): コンピュータビジョンのアルゴリズムを訓練するための合成データの利用は、コスト効率、スケーラビリティ、正確なマルチモダリティラベルを提供する能力により、ますます人気が高まっている。
最近の研究では、合成データのみをトレーニングするネットワークで印象的な結果が得られたが、合成データと実データの間にはフォトリアリズムの欠如に起因するパフォーマンスギャップが残っている。
本研究の目的は,顔解析タスクにおけるギャップをより詳細に検討することである。
分散ギャップ,ラベルギャップ,フォトリアリズムギャップの3つのタイプのギャップを区別する。
以上の結果から,分布ギャップはパフォーマンスギャップの最大の要因であり,50%以上を占めることがわかった。
このギャップに対処し、ラベルギャップを考慮し、合成データに基づいて訓練されたモデルが、同様の量の実データに基づいて訓練されたモデルと同等の結果を得ることを示す。
これは、合成データが実際のデータ、特に実際のデータが限定的または入手が困難である場合に、実際のデータの代替となることを示唆している。
本研究では,合成データセットにおけるコンテンツの多様性の重要性を強調し,フォトリアリズムギャップがコンピュータビジョンモデルの性能に影響を与える最も重要な要因であるという考えに挑戦する。
関連論文リスト
- Synthetic Simplicity: Unveiling Bias in Medical Data Augmentation [0.7499722271664144]
医用画像などのデータ共有分野において、合成データがますます重要になっている。
下流のニューラルネットワークは、しばしば、データソースとタスクラベルの間に強い相関があるときに、実データと合成データの急激な区別を利用する。
このエクスプロイトは、真のタスク関連の複雑さではなく、表面的な特徴に過度に依存する、テクスティシビティ単純性バイアスとして現れます。
論文 参考訳(メタデータ) (2024-07-31T15:14:17Z) - Exploring the Impact of Synthetic Data for Aerial-view Human Detection [17.41001388151408]
航空ビューによる人間の検出は、より多様な人間の外観を捉えるために、大規模なデータに対する大きな需要がある。
合成データはデータを拡張するのに十分なリソースだが、実際のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。
論文 参考訳(メタデータ) (2024-05-24T04:19:48Z) - Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data [2.6016285265085526]
学生モデルは、実際のデータで訓練されたモデルと比較して、精度が著しく低下している。
実データまたは合成データを用いてこれらのレイヤをトレーニングすることにより、ドロップが主にモデルの最終的なレイヤに由来することを明らかにする。
この結果から,実際のトレーニングデータの量とモデルの精度とのトレードオフの改善が示唆された。
論文 参考訳(メタデータ) (2024-05-06T07:51:13Z) - Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition [0.2775636978045794]
実データと合成データを用いて学習したモデルの性能のドリフトについて検討する。
属性集合上の実データと合成データセットの差について検討する。
興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。
論文 参考訳(メタデータ) (2024-04-23T17:10:49Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Object Detector Differences when using Synthetic and Real Training Data [0.0]
都市環境からの実画像と合成画像に基づいてYOLOv3オブジェクト検出器を訓練する。
本研究では,CKA(Centered Kernel Alignment)を用いた類似性解析を行い,合成データに対する学習効果について検討する。
その結果、実データで訓練された検出器と合成データで訓練された検出器との最大の類似性は初期の層にあり、最も大きな違いは頭部にあることがわかった。
論文 参考訳(メタデータ) (2023-12-01T16:27:48Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Beyond spectral gap: The role of the topology in decentralized learning [58.48291921602417]
機械学習モデルのデータ並列最適化では、労働者はモデルの推定値を改善するために協力する。
本稿では、労働者が同じデータ分散を共有するとき、疎結合な分散最適化の正確な図面を描くことを目的とする。
我々の理論は深層学習における経験的観察と一致し、異なるグラフトポロジーの相対的メリットを正確に記述する。
論文 参考訳(メタデータ) (2022-06-07T08:19:06Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。