論文の概要: MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning
- arxiv url: http://arxiv.org/abs/2109.05294v1
- Date: Sat, 11 Sep 2021 14:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:09:38.764794
- Title: MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning
- Title(参考訳): MLReal: 機械学習における合成データトレーニングと実データアプリケーションとのギャップを埋める
- Authors: Tariq Alkhalifah, Hanchen Wang, Oleg Ovcharenko
- Abstract要約: 本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
- 参考スコア(独自算出の注目度): 1.9852463786440129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the biggest challenges we face in utilizing neural networks trained on
waveform data (i.e., seismic, electromagnetic, or ultrasound) is its
application to real data. The requirement for accurate labels forces us to
develop solutions using synthetic data, where labels are readily available.
However, synthetic data often do not capture the reality of the field/real
experiment, and we end up with poor performance of the trained neural network
(NN) at the inference stage. We describe a novel approach to enhance supervised
training on synthetic data with real data features (domain adaptation).
Specifically, for tasks in which the absolute values of the vertical axis (time
or depth) of the input data are not crucial, like classification, or can be
corrected afterward, like velocity model building using a well-log, we suggest
a series of linear operations on the input so the training and application data
have similar distributions. This is accomplished by applying two operations on
the input data to the NN model: 1) The crosscorrelation of the input data
(i.e., shot gather, seismic image, etc.) with a fixed reference trace from the
same dataset. 2) The convolution of the resulting data with the mean (or a
random sample) of the autocorrelated data from another domain. In the training
stage, the input data are from the synthetic domain and the auto-correlated
data are from the real domain, and random samples from real data are drawn at
every training epoch. In the inference/application stage, the input data are
from the real subset domain and the mean of the autocorrelated sections are
from the synthetic data subset domain. Example applications on passive seismic
data for microseismic event source location determination and active seismic
data for predicting low frequencies are used to demonstrate the power of this
approach in improving the applicability of trained models to real data.
- Abstract(参考訳): 波形データ(地震、電磁、超音波)でトレーニングされたニューラルネットワークを活用する上で私たちが直面する最大の課題は、実データへの応用です。
正確なラベルの要件は、ラベルが容易に利用できる合成データを使ったソリューションの開発を迫られる。
しかし、合成データはフィールド/実実験の現実を捉えないことが多く、推論段階で訓練されたニューラルネットワーク(nn)の性能が低下する結果となる。
本稿では,実際のデータ特徴(ドメイン適応)を持つ合成データの教師付きトレーニングを強化する新しい手法について述べる。
具体的には、入力データの垂直軸(時間または深さ)の絶対値が分類のように重要でないタスクや、ウェルログを用いた速度モデル構築のような後続修正が可能なタスクに対して、トレーニングとアプリケーションデータに類似した分布を持つように、一連の線形演算を提案する。
これは入力データの2つの操作をnnモデルに適用することで実現される。
1)入力データ(ショット収集、地震画像等)と同一データセットからの固定基準トレースとの相互相関。
2)結果データと、他のドメインからの自己相関データの平均値(またはランダムサンプル)との畳み込み。
トレーニング段階では、入力データは合成ドメインからであり、自動相関データは実ドメインからであり、実データからのランダムサンプルは訓練期間毎に描画される。
推論/アプリケーション段階では、入力データは実際のサブセットドメインから、自己相関セクションの平均は合成データサブセットドメインからのものである。
マイクロ地震発生源位置決定のための受動的地震データと低周波予測のためのアクティブ地震データを用いた例を用いて, 実データへの適用性向上におけるこのアプローチの有効性を実証する。
関連論文リスト
- Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology [0.14980193397844666]
本稿では,合成データを用いた学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
論文 参考訳(メタデータ) (2024-05-30T08:31:01Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for
Pedestrian Detection [0.11470070927586014]
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,実世界データにおける歩行者検出モデルにおいて,生成データとシミュレーションデータの組み合わせによるトレーニングにより,平均精度が27.3%向上することを示す。
論文 参考訳(メタデータ) (2023-05-16T12:33:51Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Quantifying the LiDAR Sim-to-Real Domain Shift: A Detailed Investigation
Using Object Detectors and Analyzing Point Clouds at Target-Level [1.1999555634662635]
自律運転のためのニューラルネットワークに基づくLiDARオブジェクト検出アルゴリズムは、トレーニング、検証、テストのために大量のデータを必要とする。
ニューラルネットワークのトレーニングにシミュレーションデータを使用することで、シーン、シナリオ、分布の違いによるトレーニングデータとテストデータのドメインシフトが生じることを示す。
論文 参考訳(メタデータ) (2023-03-03T12:52:01Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文 参考訳(メタデータ) (2020-09-27T04:20:02Z) - Understanding Self-Training for Gradual Domain Adaptation [107.37869221297687]
段階的なドメイン適応は、対象領域へ徐々にシフトするラベルのないデータのみを与えられたソースドメインで訓練された初期分類器を適応させることが目的である。
目標領域への直接適応が非有界誤差をもたらすような設定下において、段階的なシフトを伴う自己学習の誤差に対する最初の非無空上界を証明した。
この理論解析はアルゴリズムの洞察を導き、無限のデータを持つ場合でも正規化とラベルのシャープ化が不可欠であることを強調し、より小さなワッサーシュタイン無限距離のシフトに対して自己学習が特にうまく働くことを示唆している。
論文 参考訳(メタデータ) (2020-02-26T08:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。