論文の概要: Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for
Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2305.09401v1
- Date: Tue, 16 May 2023 12:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:56:28.634195
- Title: Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for
Pedestrian Detection
- Title(参考訳): 拡散データセット生成:歩行者検出のためのSim2Realギャップの閉鎖に向けて
- Authors: Andrew Farley, Mohsen Zand, Michael Greenspan
- Abstract要約: 本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,実世界データにおける歩行者検出モデルにおいて,生成データとシミュレーションデータの組み合わせによるトレーニングにより,平均精度が27.3%向上することを示す。
- 参考スコア(独自算出の注目度): 0.11470070927586014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method that augments a simulated dataset using diffusion models
to improve the performance of pedestrian detection in real-world data. The high
cost of collecting and annotating data in the real-world has motivated the use
of simulation platforms to create training datasets. While simulated data is
inexpensive to collect and annotate, it unfortunately does not always closely
match the distribution of real-world data, which is known as the sim2real gap.
In this paper we propose a novel method of synthetic data creation meant to
close the sim2real gap for the challenging pedestrian detection task. Our
method uses a diffusion-based architecture to learn a real-world distribution
which, once trained, is used to generate datasets. We mix this generated data
with simulated data as a form of augmentation and show that training on a
combination of generated and simulated data increases average precision by as
much as 27.3% for pedestrian detection models in real-world data, compared
against training on purely simulated data.
- Abstract(参考訳): 本研究では,シミュレーションデータセットを拡散モデルを用いて拡張し,実世界データにおける歩行者検出性能を向上させる手法を提案する。
実世界のデータ収集と注釈付けの高コストは、トレーニングデータセットを作成するためのシミュレーションプラットフォームの利用を動機付けている。
シミュレーションデータの収集と注釈は安価だが、残念ながらsim2real gapとして知られる実世界のデータの分布と必ずしも一致しない。
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成手法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,本生成データとシミュレーションデータとの混合により,生成データとシミュレーションデータの組み合わせによるトレーニングにより,実世界データにおける歩行者検出モデルの平均精度が27.3%向上することを示す。
関連論文リスト
- Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap [6.393953433174051]
本稿では,実際のデータギャップに対処するための新しい視点を提案する。
自律運転環境における実シミュレーションデータギャップの大規模調査を初めて実施する。
シミュレーションデータに対するモデルロバスト性は顕著に向上し,実世界の性能も向上した。
論文 参考訳(メタデータ) (2024-03-24T11:09:41Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - A novel algorithm can generate data to train machine learning models in
conditions of extreme scarcity of real world data [0.0]
本研究では,機械学習モデルを学習するための大規模データセットを生成するアルゴリズムを提案する。
実世界のデータのバッチ上でのニューラルネットワークの性能は、生成されたデータセットの適合性のサロゲートと見なされる。
実世界のデータの極端な不足をシミュレートした条件下では、生成されたデータに基づいてトレーニングされた機械学習モデルの平均精度は、希少な実世界のデータでトレーニングされた比較モデルの平均精度よりも著しく高かった。
論文 参考訳(メタデータ) (2023-05-01T16:24:40Z) - Quantifying the LiDAR Sim-to-Real Domain Shift: A Detailed Investigation
Using Object Detectors and Analyzing Point Clouds at Target-Level [1.1999555634662635]
自律運転のためのニューラルネットワークに基づくLiDARオブジェクト検出アルゴリズムは、トレーニング、検証、テストのために大量のデータを必要とする。
ニューラルネットワークのトレーニングにシミュレーションデータを使用することで、シーン、シナリオ、分布の違いによるトレーニングデータとテストデータのドメインシフトが生じることを示す。
論文 参考訳(メタデータ) (2023-03-03T12:52:01Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。