論文の概要: Semi-synthesis: A fast way to produce effective datasets for stereo
matching
- arxiv url: http://arxiv.org/abs/2101.10811v1
- Date: Tue, 26 Jan 2021 14:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:51:27.586003
- Title: Semi-synthesis: A fast way to produce effective datasets for stereo
matching
- Title(参考訳): 半合成:ステレオマッチングのための効果的なデータセットを生成するための高速な方法
- Authors: Ju He, Enyu Zhou, Liusheng Sun, Fei Lei, Chenyang Liu, Wenxiu Sun
- Abstract要約: 現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
- 参考スコア(独自算出の注目度): 16.602343511350252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching is an important problem in computer vision which has drawn
tremendous research attention for decades. Recent years, data-driven methods
with convolutional neural networks (CNNs) are continuously pushing stereo
matching to new heights. However, data-driven methods require large amount of
training data, which is not an easy task for real stereo data due to the
annotation difficulties of per-pixel ground-truth disparity. Though synthetic
dataset is proposed to fill the gaps of large data demand, the fine-tuning on
real dataset is still needed due to the domain variances between synthetic data
and real data. In this paper, we found that in synthetic datasets,
close-to-real-scene texture rendering is a key factor to boost up stereo
matching performance, while close-to-real-scene 3D modeling is less important.
We then propose semi-synthetic, an effective and fast way to synthesize large
amount of data with close-to-real-scene texture to minimize the gap between
synthetic data and real data. Extensive experiments demonstrate that models
trained with our proposed semi-synthetic datasets achieve significantly better
performance than with general synthetic datasets, especially on real data
benchmarks with limited training data. With further fine-tuning on the real
dataset, we also achieve SOTA performance on Middlebury and competitive results
on KITTI and ETH3D datasets.
- Abstract(参考訳): ステレオマッチングはコンピュータビジョンの重要な問題であり、何十年にもわたって大きな研究の注目を集めてきた。
近年,畳み込みニューラルネットワーク(CNN)を用いたデータ駆動手法が,新たな高さへのステレオマッチングを継続的に進めている。
しかし,データ駆動方式には大量のトレーニングデータが必要であり,画素単位の接地距離の差によるアノテーションの難しさのため,実際のステレオデータにとって容易な作業ではない。
大規模なデータ要求のギャップを埋めるために合成データセットが提案されているが、合成データと実データの間のドメインのばらつきのため、実データセットの微調整はまだ必要である。
本論文では, 合成データセットにおいて, ステレオマッチング性能を向上する鍵となる要素であると同時に, 現実に近い3Dモデリングが重要でないことを明らかにした。
そこで我々は, 合成データと実データとのギャップを最小化するために, 半合成的, 有効かつ高速に大量のデータをリアルタイムなテクスチャで合成する手法を提案する。
広範な実験により,提案する半合成データセットで学習したモデルが,一般的な合成データセット,特にトレーニングデータに制限のある実データベンチマークよりも有意に優れた性能を達成できることが証明された。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
関連論文リスト
- Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology [0.14980193397844666]
本稿では,合成データを用いた学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
論文 参考訳(メタデータ) (2024-05-30T08:31:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。