論文の概要: Deflating Dataset Bias Using Synthetic Data Augmentation
- arxiv url: http://arxiv.org/abs/2004.13866v1
- Date: Tue, 28 Apr 2020 21:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:51:41.664216
- Title: Deflating Dataset Bias Using Synthetic Data Augmentation
- Title(参考訳): 合成データ拡張によるデータセットバイアスの低減
- Authors: Nikita Jaipuria, Xianling Zhang, Rohan Bhasin, Mayar Arafa, Punarjay
Chakravarty, Shubham Shrivastava, Sagar Manglani, Vidya N. Murali
- Abstract要約: 自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
- 参考スコア(独自算出の注目度): 8.509201763744246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning has seen an unprecedented increase in vision applications since
the publication of large-scale object recognition datasets and introduction of
scalable compute hardware. State-of-the-art methods for most vision tasks for
Autonomous Vehicles (AVs) rely on supervised learning and often fail to
generalize to domain shifts and/or outliers. Dataset diversity is thus key to
successful real-world deployment. No matter how big the size of the dataset,
capturing long tails of the distribution pertaining to task-specific
environmental factors is impractical. The goal of this paper is to investigate
the use of targeted synthetic data augmentation - combining the benefits of
gaming engine simulations and sim2real style transfer techniques - for filling
gaps in real datasets for vision tasks. Empirical studies on three different
computer vision tasks of practical use to AVs - parking slot detection, lane
detection and monocular depth estimation - consistently show that having
synthetic data in the training mix provides a significant boost in
cross-dataset generalization performance as compared to training on real data
only, for the same size of the training set.
- Abstract(参考訳): Deep Learningは、大規模オブジェクト認識データセットの公開とスケーラブルなコンピューティングハードウェアの導入以来、前例のないビジョンアプリケーションの増加を経験してきた。
自動運転車(avs)のほとんどのビジョンタスクにおける最先端の手法は教師付き学習に依存しており、ドメインシフトや外れ値への一般化に失敗することが多い。
したがってデータセットの多様性は、実世界のデプロイの成功の鍵となる。
データセットのサイズがどれほど大きくても、タスク固有の環境要因に関連する分布の長い尾を捉えることは現実的ではない。
本研究の目的は、ゲームエンジンシミュレーションとsim2realスタイル転送技術の利点を組み合わせた、視覚タスクのための実際のデータセットのギャップを埋めるために、ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスク(駐車スロット検出、車線検出、単眼深度推定)に関する実証的研究は、トレーニングミックスに合成データを持つことは、トレーニングセットと同じサイズで、実際のデータのみのトレーニングと比較して、データセットの一般化性能を大幅に向上させることを示した。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - Towards In-Vehicle Multi-Task Facial Attribute Recognition:
Investigating Synthetic Data and Vision Foundation Models [8.54530542456452]
車両の乗客の顔の特徴を認識する複雑なマルチタスクモデルを訓練するための合成データセットの有用性について検討する。
我々の研究は直感に反する発見を明らかにし、特に特定のマルチタスクコンテキストにおいて、ViTよりもResNetの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-10T04:17:54Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。
本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。
データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文 参考訳(メタデータ) (2023-08-21T06:22:10Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。