論文の概要: MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?
- arxiv url: http://arxiv.org/abs/2108.09518v1
- Date: Sat, 21 Aug 2021 14:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:47:48.849138
- Title: MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking?
- Title(参考訳): MOTSynth: 合成データは歩行者の検知と追跡にどのように役立つか?
- Authors: Matteo Fabbri, Guillem Braso, Gianluca Maugeri, Orcun Cetintas,
Riccardo Gasparini, Aljosa Osep, Simone Calderara, Laura Leal-Taixe, Rita
Cucchiara
- Abstract要約: ビデオ歩行者検出とトラッキングのためのディープラーニング手法は、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。
レンダリングゲームエンジンを用いたオブジェクト検出と追跡のための大規模で高度に多様な合成データセットMOT Synthを生成する。
実験の結果,MOT Synthは,歩行者検出,再識別,セグメンテーション,トラッキングといったタスクの実際のデータを置き換えるために利用できることがわかった。
- 参考スコア(独自算出の注目度): 36.094861549144426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based methods for video pedestrian detection and tracking
require large volumes of training data to achieve good performance. However,
data acquisition in crowded public environments raises data privacy concerns --
we are not allowed to simply record and store data without the explicit consent
of all participants. Furthermore, the annotation of such data for computer
vision applications usually requires a substantial amount of manual effort,
especially in the video domain. Labeling instances of pedestrians in highly
crowded scenarios can be challenging even for human annotators and may
introduce errors in the training data. In this paper, we study how we can
advance different aspects of multi-person tracking using solely synthetic data.
To this end, we generate MOTSynth, a large, highly diverse synthetic dataset
for object detection and tracking using a rendering game engine. Our
experiments show that MOTSynth can be used as a replacement for real data on
tasks such as pedestrian detection, re-identification, segmentation, and
tracking.
- Abstract(参考訳): ビデオ歩行者検出と追跡のためのディープラーニングに基づく手法は、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。
しかし、混み合った公共環境におけるデータ取得は、データプライバシの懸念を引き起こす - すべての参加者の明確な同意なしに、単にデータを記録して保存することは許されない。
さらに、コンピュータビジョンアプリケーションに対するそのようなデータのアノテーションは通常、特にビデオ領域においてかなりの手作業を必要とする。
非常に混み合ったシナリオにおける歩行者のラベル付けは、人間のアノテータであっても困難であり、トレーニングデータにエラーをもたらす可能性がある。
本稿では,合成データのみを用いて多人数追跡の異なる側面を前進させる方法について検討する。
この目的のために、レンダリングゲームエンジンを用いてオブジェクトの検出と追跡のための大規模で高度に多様な合成データセットMOTSynthを生成する。
実験の結果,MOTSynthは,歩行者検出,再識別,セグメンテーション,追跡といったタスクの実際のデータを置き換えるために利用できることがわかった。
関連論文リスト
- Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - PieTrack: An MOT solution based on synthetic data training and
self-supervised domain adaptation [17.716808322509667]
PieTrackは、事前訓練された重みを使わずに、合成データに基づいて開発されている。
提案したマルチスケールアンサンブル推論を利用して,MOT17テストセットで58.7のHOTAスコアを達成した。
論文 参考訳(メタデータ) (2022-07-22T20:34:49Z) - Virtual passengers for real car solutions: synthetic datasets [2.1028463367241033]
私たちは3Dシナリオを構築し、可能な限り現実に近いようにセットアップします。
シーンにランダム性を加えるためにパラメータの設定と変更が可能である。
本稿では,自動車環境における合成データ生成のプロセスと概念について述べる。
論文 参考訳(メタデータ) (2022-05-13T10:54:39Z) - TDT: Teaching Detectors to Track without Fully Annotated Videos [2.8292841621378844]
検知と外観の埋め込みの両方を予測するワンステージトラッカーは、多くの注目を集めた。
提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。
論文 参考訳(メタデータ) (2022-05-11T15:56:17Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Multi-Object Tracking with Hallucinated and Unlabeled Videos [34.38275236770619]
アノテーションをトラッキングする代わりに、ズームイン/アウト動作変換を用いて、バウンディングボックスアノテーションでビデオを幻覚化する。
それから私たちは、幻覚したビデオデータに基づいてトレーニングされたトラッカーを使って、ラベルのない実際のビデオのプールにハードサンプルを掘り下げました。
弱教師付きトラッカーはMOT17およびTAO個人データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-19T17:57:29Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。