論文の概要: Exploring the Potential of Synthetic Data to Replace Real Data
- arxiv url: http://arxiv.org/abs/2408.14559v1
- Date: Mon, 26 Aug 2024 18:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 17:40:47.493727
- Title: Exploring the Potential of Synthetic Data to Replace Real Data
- Title(参考訳): 実データを置き換えるための合成データの可能性を探る
- Authors: Hyungtae Lee, Yan Zhang, Heesung Kwon, Shuvra S. Bhattacharrya,
- Abstract要約: 実データを置き換えるための合成データのポテンシャルは、ドメイン間の実画像の数や、トレーニングされたモデルを評価するためのテストセットによって異なることがわかった。
train2test 距離と $textAP_textt2t$ という2つの新しい指標を導入し、合成データを用いたクロスドメイントレーニングセットの性能を評価する。
- 参考スコア(独自算出の注目度): 16.89582896061033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential of synthetic data to replace real data creates a huge demand for synthetic data in data-hungry AI. This potential is even greater when synthetic data is used for training along with a small number of real images from domains other than the test domain. We find that this potential varies depending on (i) the number of cross-domain real images and (ii) the test set on which the trained model is evaluated. We introduce two new metrics, the train2test distance and $\text{AP}_\text{t2t}$, to evaluate the ability of a cross-domain training set using synthetic data to represent the characteristics of test instances in relation to training performance. Using these metrics, we delve deeper into the factors that influence the potential of synthetic data and uncover some interesting dynamics about how synthetic data impacts training performance. We hope these discoveries will encourage more widespread use of synthetic data.
- Abstract(参考訳): 実際のデータを置き換える合成データの可能性は、データ不足のAIにおける合成データに対する大きな需要を生み出します。
このポテンシャルは、テストドメイン以外のドメインからの少数の実画像とともに、合成データがトレーニングに使用される場合にさらに大きい。
このポテンシャルは、多様である。
(i)クロスドメインな実画像の数、及び
(ii) 訓練されたモデルを評価するテストセット。
train2test 距離と $\text{AP}_\text{t2t}$ という2つの新しい指標を導入し、総合データを用いたクロスドメイントレーニングセットの有効性を評価して、テストインスタンスの特性をトレーニングパフォーマンスと関連づける。
これらの指標を用いて、合成データのポテンシャルに影響を与える要因を深く掘り下げ、合成データがトレーニングのパフォーマンスに与える影響に関する興味深いダイナミクスを明らかにする。
これらの発見によって、より広範な合成データの利用が促進されることを願っています。
関連論文リスト
- Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology [0.14980193397844666]
本稿では,合成データを用いた学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
論文 参考訳(メタデータ) (2024-05-30T08:31:01Z) - Exploring the Impact of Synthetic Data for Aerial-view Human Detection [17.41001388151408]
航空ビューによる人間の検出は、より多様な人間の外観を捉えるために、大規模なデータに対する大きな需要がある。
合成データはデータを拡張するのに十分なリソースだが、実際のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。
論文 参考訳(メタデータ) (2024-05-24T04:19:48Z) - Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition [0.2775636978045794]
実データと合成データを用いて学習したモデルの性能のドリフトについて検討する。
属性集合上の実データと合成データセットの差について検討する。
興味深いことに、我々は実際のサンプルが合成分布を説明するのに十分であるにもかかわらず、その逆はもはや真実ではないことを検証した。
論文 参考訳(メタデータ) (2024-04-23T17:10:49Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Analysis of Training Object Detection Models with Synthetic Data [0.0]
本稿では,オブジェクト検出に合成データを使用する方法の概要を概説する。
データ生成の側面とモデルをトレーニングするテクニックを分析します。
実験は実データ上で検証され、実データでトレーニングされたモデルにベンチマークされる。
論文 参考訳(メタデータ) (2022-11-29T10:21:16Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Synthetic Data for Model Selection [2.4499092754102874]
合成データはモデル選択に有用であることを示す。
そこで本研究では,実領域に適合する合成誤差推定をキャリブレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T09:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。