論文の概要: Heuristics2Annotate: Efficient Annotation of Large-Scale Marathon
Dataset For Bounding Box Regression
- arxiv url: http://arxiv.org/abs/2104.02749v1
- Date: Tue, 6 Apr 2021 19:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:04:02.726998
- Title: Heuristics2Annotate: Efficient Annotation of Large-Scale Marathon
Dataset For Bounding Box Regression
- Title(参考訳): heuristics2annotate:バウンディングボックス回帰のための大規模マラソンデータセットの効率的なアノテーション
- Authors: Pranjal Singh Rajput, Yeshwanth Napolean, Jan van Gemert
- Abstract要約: 我々はマラソンランナーの大規模インザワイルドビデオデータセットを収集した。
このデータセットは、42台のハンドヘルドスマートフォンカメラで撮影された数千人のランナーの記録から成り立っている。
このような大規模データセットのアノテーションにおける課題に取り組むための新しいスキームを提案する。
- 参考スコア(独自算出の注目度): 8.078491757252692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating a large-scale in-the-wild person re-identification dataset
especially of marathon runners is a challenging task. The variations in the
scenarios such as camera viewpoints, resolution, occlusion, and illumination
make the problem non-trivial. Manually annotating bounding boxes in such
large-scale datasets is cost-inefficient. Additionally, due to crowdedness and
occlusion in the videos, aligning the identity of runners across multiple
disjoint cameras is a challenge. We collected a novel large-scale in-the-wild
video dataset of marathon runners. The dataset consists of hours of recording
of thousands of runners captured using 42 hand-held smartphone cameras and
covering real-world scenarios. Due to the presence of crowdedness and occlusion
in the videos, the annotation of runners becomes a challenging task. We propose
a new scheme for tackling the challenges in the annotation of such large
dataset. Our technique reduces the overall cost of annotation in terms of time
as well as budget. We demonstrate performing fps analysis to reduce the effort
and time of annotation. We investigate several annotation methods for
efficiently generating tight bounding boxes. Our results prove that
interpolating bounding boxes between keyframes is the most efficient method of
bounding box generation amongst several other methods and is 3x times faster
than the naive baseline method. We introduce a novel way of aligning the
identity of runners in disjoint cameras. Our inter-camera alignment tool
integrated with the state-of-the-art person re-id system proves to be
sufficient and effective in the alignment of the runners across multiple
cameras with non-overlapping views. Our proposed framework of annotation
reduces the annotation cost of the dataset by a factor of 16x, also effectively
aligning 93.64% of the runners in the cross-camera setting.
- Abstract(参考訳): 特にマラソンランナーの大規模な個人再識別データセットにアノテートするのは難しい作業です。
カメラ視点、解像度、オクルージョン、照明といったシナリオのバリエーションは、問題を非自明にしている。
このような大規模データセットで手動で注釈付けするバウンディングボックスはコスト非効率である。
さらに、ビデオの混雑と排他性のため、複数の不規則なカメラでランナーのアイデンティティを調整することは難しい。
我々はマラソンランナーの大規模インザワイルドビデオデータセットを収集した。
このデータセットは、42台のハンドヘルドスマートフォンカメラで撮影した数千人のランナーを何時間も記録し、現実世界のシナリオをカバーする。
ビデオには混み合いや隠蔽があるため、ランナーのアノテーションは難しい課題となる。
このような大規模データセットのアノテーションにおける課題に対処するための新しい手法を提案する。
我々の手法は、時間と予算の観点から、アノテーションの全体的なコストを削減します。
アノテーションの労力と時間を削減するために、fps解析を実演する。
タイトバウンディングボックスを効率的に生成するためのアノテーション手法について検討した。
その結果,キーフレーム間のバウンディングボックスの補間は,他の手法の中で最も効率的なバウンディングボックス生成法であり,ナイーブベースライン法よりも3倍高速であることがわかった。
分離カメラにおけるランナーのアイデンティティを整合させる新しい方法を提案する。
最先端の人物認証システムと統合したカメラ間アライメントツールは、複数のカメラにまたがるランナーをオーバーラップしないビューでアライメントするのに十分かつ効果的であることが証明された。
提案するアノテーションフレームワークは,データセットのアノテーションコストを16倍に削減し,カメラ横断環境におけるランナーの93.64%を効果的に調整する。
関連論文リスト
- Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Are Dense Labels Always Necessary for 3D Object Detection from Point
Cloud? [72.40353149833109]
現在のSOTA(State-of-the-art)3Dオブジェクト検出法は、トレーニングのために大量の3Dバウンディングボックスアノテーションを必要とすることが多い。
シーン毎に1つの3Dオブジェクトにアノテートするだけでよい,スプリスアノテートされた新しいフレームワークを提案する。
SS3D++法は、代わりに3D検出器のトレーニングを改善し、完全に注釈付けされたシーン生成を確実にする。
論文 参考訳(メタデータ) (2024-03-05T09:38:11Z) - Implicit View-Time Interpolation of Stereo Videos using Multi-Plane
Disparities and Non-Uniform Coordinates [10.445563506186307]
我々は、入力座標と2次元RGB画像間の補間可能なマッピングを近似するX-Fieldsの上に構築する。
ステレオビューにおける物体の空間的距離を低減するために,多面的不均一性を提案する。
また、X-Fieldsに対するいくつかの単純だが重要な改善も導入します。
論文 参考訳(メタデータ) (2023-03-30T06:32:55Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Fast Interactive Video Object Segmentation with Graph Neural Networks [0.0]
本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワークに基づくアプローチを提案する。
我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。
論文 参考訳(メタデータ) (2021-03-05T17:37:12Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Efficient video annotation with visual interpolation and frame selection
guidance [0.0]
バウンディングボックスを備えたジェネリックビデオアノテーションの統一フレームワークを紹介します。
提案手法は,一般的な線形手法に比べて実測アノテーション時間を50%短縮することを示す。
論文 参考訳(メタデータ) (2020-12-23T09:31:40Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - ScribbleBox: Interactive Annotation Framework for Video Object
Segmentation [62.86341611684222]
我々はScribbleBoxを紹介した。これはビデオでオブジェクトインスタンスにマスクを付けるためのインタラクティブなフレームワークだ。
パラメトリック曲線を用いて軌道を近似することにより、ボックストラックを効率的にアノテートする。
我々のScribbleBoxアプローチは、DAVIS 2017で88.92%のJ&Fに達し、ボックストラックあたり9.14クリック、4フレームのアノテーションがある。
論文 参考訳(メタデータ) (2020-08-22T00:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。