論文の概要: Counting People by Estimating People Flows
- arxiv url: http://arxiv.org/abs/2012.00452v1
- Date: Tue, 1 Dec 2020 12:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 20:01:35.382790
- Title: Counting People by Estimating People Flows
- Title(参考訳): 人の流れを推定して人を数える
- Authors: Weizhe Liu, Mathieu Salzmann, Pascal Fua
- Abstract要約: 我々は、直接回帰するのではなく、連続した画像間の画像位置を流れる人々のフローを推定することを提唱する。
より複雑なアーキテクチャを必要とすることなく、パフォーマンスを大幅に向上します。
また,空間的制約と時間的制約を両立させることで,深い群集数モデルの訓練を可能にすることを示す。
- 参考スコア(独自算出の注目度): 135.85747920798897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern methods for counting people in crowded scenes rely on deep networks to
estimate people densities in individual images. As such, only very few take
advantage of temporal consistency in video sequences, and those that do only
impose weak smoothness constraints across consecutive frames. In this paper, we
advocate estimating people flows across image locations between consecutive
images and inferring the people densities from these flows instead of directly
regressing them. This enables us to impose much stronger constraints encoding
the conservation of the number of people. As a result, it significantly boosts
performance without requiring a more complex architecture. Furthermore, it
allows us to exploit the correlation between people flow and optical flow to
further improve the results. We also show that leveraging people conservation
constraints in both a spatial and temporal manner makes it possible to train a
deep crowd counting model in an active learning setting with much fewer
annotations. This significantly reduces the annotation cost while still leading
to similar performance to the full supervision case.
- Abstract(参考訳): 混み合ったシーンの人物を数える現代の方法は、個々の画像の人物密度を推定するためにディープネットワークに依存している。
このように、ビデオシーケンスの時間的一貫性を活かすものはほとんどなく、連続するフレームに弱い滑らかさの制約を課すだけである。
本稿では,連続する画像間の画像位置間の流れを推定し,直接レグレッションするのではなく,これらの流れから人物密度を推定することを提案する。
これにより、人数の保存を規定するより強い制約を課すことができます。
その結果、より複雑なアーキテクチャを必要とせずに、パフォーマンスが大幅に向上する。
さらに, 人流と光流の相関を利用して, 結果をさらに改善することができる。
また,空間的制約と時間的制約を両立させることで,より少ないアノテーションで積極的学習環境において,深い群集数モデルを訓練できることを示す。
これはアノテーションのコストを大幅に削減すると同時に、完全な監視ケースと同じようなパフォーマンスを実現している。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - DistractFlow: Improving Optical Flow Estimation via Realistic
Distractions and Pseudo-Labeling [49.46842536813477]
本稿では,光フロー推定モデルのトレーニングのための新しいデータ拡張手法であるDistractFlowを提案する。
2つのフレームのうちの1つを、類似したドメインを描写したイントラクタイメージと組み合わせることで、自然の物体やシーンと相反する視覚的摂動を誘発することができる。
私たちのアプローチでは、追加のアノテーションを必要とせずに、利用可能なトレーニングペアの数を大幅に増やすことができます。
論文 参考訳(メタデータ) (2023-03-24T15:42:54Z) - A Spatio-Temporal Attentive Network for Video-Based Crowd Counting [5.556665316806146]
現在のコンピュータビジョン技術は、個々の画像中の歩行者の密度を推定するディープラーニングベースのアルゴリズムに依存している。
連続フレーム間の時間的時間的相関を利用して、注意時間的カウントを5%、ローカライズ誤差を7.5%減らした。
論文 参考訳(メタデータ) (2022-08-24T07:40:34Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - Leveraging Self-Supervision for Cross-Domain Crowd Counting [71.75102529797549]
混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2021-03-30T12:37:55Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。