論文の概要: Artificial Dummies for Urban Dataset Augmentation
- arxiv url: http://arxiv.org/abs/2012.08274v1
- Date: Tue, 15 Dec 2020 13:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:22:01.118798
- Title: Artificial Dummies for Urban Dataset Augmentation
- Title(参考訳): 都市データセット拡張のための人工ダミー
- Authors: Anton\'in Vobeck\'y, David Hurych, Michal U\v{r}i\v{c}\'a\v{r},
Patrick P\'erez, and Josef \v{S}ivic
- Abstract要約: 画像中の歩行者検知器を訓練するための既存のデータセットは、外観やポーズの変動が限られている。
本稿では,人を含む都市景観の合成制御のための拡張手法について述べる。
DummyNetが生成するデータは、さまざまなデータセットにわたる複数の既存の人検出器のパフォーマンスを向上させることを実証します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing datasets for training pedestrian detectors in images suffer from
limited appearance and pose variation. The most challenging scenarios are
rarely included because they are too difficult to capture due to safety
reasons, or they are very unlikely to happen. The strict safety requirements in
assisted and autonomous driving applications call for an extra high detection
accuracy also in these rare situations. Having the ability to generate people
images in arbitrary poses, with arbitrary appearances and embedded in different
background scenes with varying illumination and weather conditions, is a
crucial component for the development and testing of such applications. The
contributions of this paper are three-fold. First, we describe an augmentation
method for controlled synthesis of urban scenes containing people, thus
producing rare or never-seen situations. This is achieved with a data generator
(called DummyNet) with disentangled control of the pose, the appearance, and
the target background scene. Second, the proposed generator relies on novel
network architecture and associated loss that takes into account the
segmentation of the foreground person and its composition into the background
scene. Finally, we demonstrate that the data generated by our DummyNet improve
performance of several existing person detectors across various datasets as
well as in challenging situations, such as night-time conditions, where only a
limited amount of training data is available. In the setup with only day-time
data available, we improve the night-time detector by $17\%$ log-average miss
rate over the detector trained with the day-time data only.
- Abstract(参考訳): 画像中の歩行者検知器を訓練するための既存のデータセットは、外観やポーズの変動が限られている。
最も困難なシナリオは、安全上の理由から捕獲が難しい、あるいは起こりそうにないため、めったに含まれない。
アシストや自動運転のアプリケーションにおける厳格な安全性要件は、これらのまれな状況においても、さらに高い検出精度を要求する。
任意のポーズで人物画像を生成でき、任意の外観で、異なる背景に様々な照明や天候条件で埋め込まれる能力は、そのようなアプリケーションの開発とテストにとって重要な要素である。
この論文の貢献は3つある。
まず,人間を含む都市景観の制御的合成のための拡張手法について述べる。
これは、ポーズ、外観、ターゲットの背景シーンを不連続に制御したデータジェネレータ(dummynetと呼ばれる)によって達成される。
第2に,提案するジェネレータは,前景人物のセグメンテーションとその構成を背景シーンに考慮した,新たなネットワークアーキテクチャと関連する損失に依存する。
最後に,dummynetが生成するデータは,限られたトレーニングデータしか利用できない夜間条件などの困難な状況において,さまざまなデータセットにまたがる既存の人物検出器の性能を向上させることを実証する。
日時データのみを利用可能なセットアップでは、日時データのみを用いてトレーニングされた検出器よりも、夜間検出器を17\%$ログ平均ミスレートで改善する。
関連論文リスト
- Multi-Attention Fusion Drowsy Driving Detection Model [1.2043574473965317]
我々は,Multi-Attention Fusion Drowsy Driving Detection Model (MAF)と呼ばれる新しいアプローチを導入する。
提案モデルでは96.8%の運転覚醒検出精度が得られた。
論文 参考訳(メタデータ) (2023-12-28T14:53:32Z) - MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in
Adverse Scenes [49.21187418886508]
本論文は,モノTDP(MonoTDP)と呼ばれる悪シーンにおける2つの深度を知覚するモノクル3次元検出モデルを提案する。
まず、制御不能な気象条件を扱うモデルを支援するための適応学習戦略を導入し、様々な劣化要因による劣化を著しく抑制する。
そこで本研究では, シーン深度と物体深度を同時に推定する新たな2つの深度認識モジュールを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:42:02Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - Adapting to Skew: Imputing Spatiotemporal Urban Data with 3D Partial
Convolutions and Biased Masking [13.94102520443797]
都市データの欠落は、センサーまたはソフトウェア障害、データ品質の問題、気象イベントからの干渉、不完全なデータ収集、あるいはさまざまなデータ使用規則によって引き起こされる可能性がある。
我々は3次元ヒストグラム(2次元空間+1次元時間)で都市環境におけるデータ交換によく用いられる画像インペイントにコンピュータビジョン技術を適用した。
我々は,コアモデルが質的かつ定量的に有効であることを示し,トレーニング中の偏りマスキングが様々なシナリオにおける誤差を低減することを示した。
論文 参考訳(メタデータ) (2023-01-10T22:44:22Z) - Ithaca365: Dataset and Driving Perception under Repeated and Challenging
Weather Conditions [0.0]
我々は、新しいデータ収集プロセスを通じて、堅牢な自律運転を可能にする新しいデータセットを提案する。
データセットには、高精度GPS/INSとともに、カメラとLiDARセンサーからの画像と点雲が含まれている。
道路・オブジェクトのアモーダルセグメンテーションにおけるベースラインの性能を解析することにより,このデータセットの特異性を実証する。
論文 参考訳(メタデータ) (2022-08-01T22:55:32Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization [44.97567243883994]
クラウドソースデータを用いた屋外シーンにおける視覚的位置推定のための新しいベンチマークを提案する。
私たちのデータセットは非常に困難で、評価されたすべてのメソッドが最も難しい部分で失敗していることが示されています。
データセットリリースの一部として、私たちはそれを生成するために使用されるツールを提供し、効率的で効果的な2D対応アノテーションを可能にします。
論文 参考訳(メタデータ) (2021-09-09T19:25:48Z) - Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in
Adverse Weather [92.84066576636914]
本研究は,霧の天候下でのLiDARによる3次元物体検出の課題に対処する。
我々は、物理的に正確な霧をクリア・ウェザー・シーンにシミュレートすることでこの問題に対処する。
Seeing Through Fogデータセットに強力な3Dオブジェクト検出ベースラインを提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2021-08-11T14:37:54Z) - Lidar Light Scattering Augmentation (LISA): Physics-based Simulation of
Adverse Weather Conditions for 3D Object Detection [60.89616629421904]
ライダーベースの物体検出器は、自動運転車のような自律ナビゲーションシステムにおいて、3D知覚パイプラインの重要な部分である。
降雨、雪、霧などの悪天候に敏感で、信号-雑音比(SNR)と信号-背景比(SBR)が低下している。
論文 参考訳(メタデータ) (2021-07-14T21:10:47Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。