論文の概要: Pixel-wise Crowd Understanding via Synthetic Data
- arxiv url: http://arxiv.org/abs/2007.16032v2
- Date: Mon, 3 Aug 2020 01:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:35:36.003932
- Title: Pixel-wise Crowd Understanding via Synthetic Data
- Title(参考訳): 合成データによるピクセル単位の群衆理解
- Authors: Qi Wang, Junyu Gao, Wei Lin, Yuan Yuan
- Abstract要約: 我々は、Grand Theft Auto Vで、合成およびラベル付けされた群衆シーンを生成するための無料のデータ収集とラベル作成装置を開発した。
そこで本研究では,合成データを利用して,群集理解の性能を向上させるための2つの簡単な手法を提案する。
- 参考スコア(独自算出の注目度): 38.28680457327259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd analysis via computer vision techniques is an important topic in the
field of video surveillance, which has wide-spread applications including crowd
monitoring, public safety, space design and so on. Pixel-wise crowd
understanding is the most fundamental task in crowd analysis because of its
finer results for video sequences or still images than other analysis tasks.
Unfortunately, pixel-level understanding needs a large amount of labeled
training data. Annotating them is an expensive work, which causes that current
crowd datasets are small. As a result, most algorithms suffer from over-fitting
to varying degrees. In this paper, take crowd counting and segmentation as
examples from the pixel-wise crowd understanding, we attempt to remedy these
problems from two aspects, namely data and methodology. Firstly, we develop a
free data collector and labeler to generate synthetic and labeled crowd scenes
in a computer game, Grand Theft Auto V. Then we use it to construct a
large-scale, diverse synthetic crowd dataset, which is named as "GCC Dataset".
Secondly, we propose two simple methods to improve the performance of crowd
understanding via exploiting the synthetic data. To be specific, 1) supervised
crowd understanding: pre-train a crowd analysis model on the synthetic data,
then fine-tune it using the real data and labels, which makes the model perform
better on the real world; 2) crowd understanding via domain adaptation:
translate the synthetic data to photo-realistic images, then train the model on
translated data and labels. As a result, the trained model works well in real
crowd scenes.
- Abstract(参考訳): コンピュータビジョン技術による群衆分析はビデオ監視の分野で重要なトピックであり、群衆の監視、公共の安全、宇宙設計など幅広い応用がある。
画像や静止画の細かな結果が、他の分析タスクよりも優れているため、群衆分析の最も基本的なタスクである。
残念ながら、ピクセルレベルの理解には大量のラベル付きトレーニングデータが必要です。
注釈付けは高価な作業であり、現在の群衆データセットが小さくなっている。
その結果、ほとんどのアルゴリズムは過度に適合し、様々な程度に変化する。
本稿では, 群集数とセグメンテーションを画素単位の群集理解の例として捉え, データと方法論という2つの側面からこれらの問題を治療しようと試みる。
まず,コンピュータゲーム『グランド・セフト・オートV』で合成・ラベル付けされた群衆シーンを生成する無料のデータ収集装置とラベル作成装置を開発し,その上で,大規模かつ多種多様な群衆データセットの構築を行う。
次に, 合成データを利用して, 群集理解性能を向上させるための2つの簡単な手法を提案する。
具体的に言うと
1) 観衆の理解: 合成データに基づいて群集分析モデルを事前訓練し, 実データとラベルを用いて微調整することにより, 実世界において, モデルの性能が向上する。
2) ドメイン適応によるクラウド理解: 合成データをフォトリアリスティックなイメージに変換し、翻訳データとラベルに基づいてモデルをトレーニングする。
その結果、訓練されたモデルは実際の群衆シーンでうまく機能する。
関連論文リスト
- Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - An Unbiased Look at Datasets for Visuo-Motor Pre-Training [20.094244564603184]
データセットの選択は、このパラダイムの成功と同じくらい重要です。
従来の視覚データセットは、ビジュオモダ表現学習の驚くほど競争力のある選択肢である。
シミュレーションベンチマークは実世界のパフォーマンスの信頼できるプロキシではないことを示す。
論文 参考訳(メタデータ) (2023-10-13T17:59:02Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking? [36.094861549144426]
ビデオ歩行者検出とトラッキングのためのディープラーニング手法は、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。
レンダリングゲームエンジンを用いたオブジェクト検出と追跡のための大規模で高度に多様な合成データセットMOT Synthを生成する。
実験の結果,MOT Synthは,歩行者検出,再識別,セグメンテーション,トラッキングといったタスクの実際のデータを置き換えるために利用できることがわかった。
論文 参考訳(メタデータ) (2021-08-21T14:25:25Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。