論文の概要: Reducing the Amount of Real World Data for Object Detector Training with
Synthetic Data
- arxiv url: http://arxiv.org/abs/2202.00632v1
- Date: Mon, 31 Jan 2022 08:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:41:29.823978
- Title: Reducing the Amount of Real World Data for Object Detector Training with
Synthetic Data
- Title(参考訳): 合成データを用いた物体検出訓練における実世界のデータ量削減
- Authors: Sven Burdorf, Karoline Plum, Daniel Hasenklever
- Abstract要約: 合成データと実世界のデータの混合データセットを使用することで、実世界のデータがどれだけ節約できるかを定量化する。
検出性能を犠牲にすることなく,実世界のデータの必要性を最大70%削減できることがわかった。
- 参考スコア(独自算出の注目度): 1.0312968200748116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of studies have investigated the training of neural networks with
synthetic data for applications in the real world. The aim of this study is to
quantify how much real world data can be saved when using a mixed dataset of
synthetic and real world data. By modeling the relationship between the number
of training examples and detection performance by a simple power law, we find
that the need for real world data can be reduced by up to 70% without
sacrificing detection performance. The training of object detection networks is
especially enhanced by enriching the mixed dataset with classes
underrepresented in the real world dataset. The results indicate that mixed
datasets with real world data ratios between 5% and 20% reduce the need for
real world data the most without reducing the detection performance.
- Abstract(参考訳): 多くの研究が、現実世界の応用のための合成データを用いたニューラルネットワークのトレーニングを調査している。
本研究の目的は,合成データと実世界のデータの混合データセットを用いて,実世界のデータの保存量を定量化することである。
簡単な電力法則によりトレーニング例数と検出性能の関係をモデル化することにより,検出性能を犠牲にすることなく,実世界のデータの必要性を最大70%削減できることがわかった。
オブジェクト検出ネットワークのトレーニングは、実世界のデータセットに表示されないクラスで混合データセットを豊かにすることで、特に強化される。
その結果, 実世界のデータ比が5%から20%の混合データセットは, 検出性能を低下させることなく, 実世界のデータの必要性を最大に抑えることができた。
関連論文リスト
- GraphGuard: Detecting and Counteracting Training Data Misuse in Graph
Neural Networks [69.97213941893351]
グラフデータ分析におけるグラフニューラルネットワーク(GNN)の出現は、モデルトレーニング中のデータ誤用に関する重要な懸念を引き起こしている。
既存の手法は、データ誤用検出または緩和のいずれかに対応しており、主にローカルGNNモデル用に設計されている。
本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-13T02:59:37Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - A novel algorithm can generate data to train machine learning models in
conditions of extreme scarcity of real world data [0.0]
本研究では,機械学習モデルを学習するための大規模データセットを生成するアルゴリズムを提案する。
実世界のデータのバッチ上でのニューラルネットワークの性能は、生成されたデータセットの適合性のサロゲートと見なされる。
実世界のデータの極端な不足をシミュレートした条件下では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、希少な実世界のデータでトレーニングされた比較モデルの平均精度よりも著しく高かった。
論文 参考訳(メタデータ) (2023-05-01T16:24:40Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based
Localization: A Deep Learning Approach [1.6379393441314491]
合成データを用いた指紋ベースのローカリゼーションにおけるトレーニングデータ収集コストを削減するための新しいアプローチを紹介します。
GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために用いられる。
収集されたデータのフルセットを使用して得られるものと本質的に同様の位置決め精度を得ることができます。
論文 参考訳(メタデータ) (2021-05-05T07:36:01Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。