Fugu-MT 論文翻訳(概要): Deflating Dataset Bias Using Synthetic Data Augmentation

論文の概要: Deflating Dataset Bias Using Synthetic Data Augmentation

arxiv url: http://arxiv.org/abs/2004.13866v1
Date: Tue, 28 Apr 2020 21:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 22:51:41.664216
Title: Deflating Dataset Bias Using Synthetic Data Augmentation
Title（参考訳）: 合成データ拡張によるデータセットバイアスの低減
Authors: Nikita Jaipuria, Xianling Zhang, Rohan Bhasin, Mayar Arafa, Punarjay Chakravarty, Shubham Shrivastava, Sagar Manglani, Vidya N. Murali
Abstract要約: 自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。 AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
参考スコア（独自算出の注目度）: 8.509201763744246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Learning has seen an unprecedented increase in vision applications since the publication of large-scale object recognition datasets and introduction of scalable compute hardware. State-of-the-art methods for most vision tasks for Autonomous Vehicles (AVs) rely on supervised learning and often fail to generalize to domain shifts and/or outliers. Dataset diversity is thus key to successful real-world deployment. No matter how big the size of the dataset, capturing long tails of the distribution pertaining to task-specific environmental factors is impractical. The goal of this paper is to investigate the use of targeted synthetic data augmentation - combining the benefits of gaming engine simulations and sim2real style transfer techniques - for filling gaps in real datasets for vision tasks. Empirical studies on three different computer vision tasks of practical use to AVs - parking slot detection, lane detection and monocular depth estimation - consistently show that having synthetic data in the training mix provides a significant boost in cross-dataset generalization performance as compared to training on real data only, for the same size of the training set.
Abstract（参考訳）: Deep Learningは、大規模オブジェクト認識データセットの公開とスケーラブルなコンピューティングハードウェアの導入以来、前例のないビジョンアプリケーションの増加を経験してきた。自動運転車(avs)のほとんどのビジョンタスクにおける最先端の手法は教師付き学習に依存しており、ドメインシフトや外れ値への一般化に失敗することが多い。したがってデータセットの多様性は、実世界のデプロイの成功の鍵となる。データセットのサイズがどれほど大きくても、タスク固有の環境要因に関連する分布の長い尾を捉えることは現実的ではない。本研究の目的は、ゲームエンジンシミュレーションとsim2realスタイル転送技術の利点を組み合わせた、視覚タスクのための実際のデータセットのギャップを埋めるために、ターゲットとなる合成データ拡張の利用を検討することである。 AVに実用的な3つの異なるコンピュータビジョンタスク(駐車スロット検出、車線検出、単眼深度推定)に関する実証的研究は、トレーニングミックスに合成データを持つことは、トレーニングセットと同じサイズで、実際のデータのみのトレーニングと比較して、データセットの一般化性能を大幅に向上させることを示した。

関連論文リスト

R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。 R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文参考訳（メタデータ） (2025-10-09T17:55:44Z)
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios [66.57089888022414]
DenseWorldは、緊急な現実世界のアプリケーションに対応する、25の密集した予測タスクの幅広いセットにまたがるベンチマークである。次に,DenseDiTを提案する。DenseDiTは,生成モデルの視覚的先行性を利用して,統合された戦略により,多種多様な実世界の密集予測タスクを実行する。 DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して優れた結果を得る。
論文参考訳（メタデータ） (2025-06-25T09:40:50Z)
Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文参考訳（メタデータ） (2024-12-19T03:39:13Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文参考訳（メタデータ） (2024-03-22T17:49:11Z)
Towards In-Vehicle Multi-Task Facial Attribute Recognition: Investigating Synthetic Data and Vision Foundation Models [8.54530542456452]
車両の乗客の顔の特徴を認識する複雑なマルチタスクモデルを訓練するための合成データセットの有用性について検討する。我々の研究は直感に反する発見を明らかにし、特に特定のマルチタスクコンテキストにおいて、ViTよりもResNetの方が優れた性能を示した。
論文参考訳（メタデータ） (2024-03-10T04:17:54Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文参考訳（メタデータ） (2023-08-21T06:22:10Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
On The State of Data In Computer Vision: Human Annotations Remain Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす 2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文参考訳（メタデータ） (2021-07-31T00:08:21Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。