論文の概要: Unveiling the Power of Self-supervision for Multi-view Multi-human
Association and Tracking
- arxiv url: http://arxiv.org/abs/2401.17617v1
- Date: Wed, 31 Jan 2024 06:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:26:37.686033
- Title: Unveiling the Power of Self-supervision for Multi-view Multi-human
Association and Tracking
- Title(参考訳): マルチビュー・マルチヒューマン・アソシエーションとトラッキングのための自己スーパービジョンのパワー
- Authors: Wei Feng, Feifan Wang, Ruize Han, Zekun Qian and Song Wang
- Abstract要約: マルチビュー・マルチヒューマン・アソシエーション・トラッキング(MvMHAT)は,多人数映像監視において重要な課題である。
本稿では,エンド・ツー・エンド・エンド・ネットワークの自己教師型学習システムを用いてこの問題に対処する。
異なるアルゴリズムのネットワークトレーニングとテストのための、2つの新しい大規模ベンチマークを構築します。
- 参考スコア(独自算出の注目度): 22.243799150495487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view multi-human association and tracking (MvMHAT), is a new but
important problem for multi-person scene video surveillance, aiming to track a
group of people over time in each view, as well as to identify the same person
across different views at the same time, which is different from previous MOT
and multi-camera MOT tasks only considering the over-time human tracking. This
way, the videos for MvMHAT require more complex annotations while containing
more information for self learning. In this work, we tackle this problem with a
self-supervised learning aware end-to-end network. Specifically, we propose to
take advantage of the spatial-temporal self-consistency rationale by
considering three properties of reflexivity, symmetry and transitivity. Besides
the reflexivity property that naturally holds, we design the self-supervised
learning losses based on the properties of symmetry and transitivity, for both
appearance feature learning and assignment matrix optimization, to associate
the multiple humans over time and across views. Furthermore, to promote the
research on MvMHAT, we build two new large-scale benchmarks for the network
training and testing of different algorithms. Extensive experiments on the
proposed benchmarks verify the effectiveness of our method. We have released
the benchmark and code to the public.
- Abstract(参考訳): マルチビュー・マルチヒューマン・アソシエーション・トラッキング(MvMHAT)は、複数対人映像監視において新たな重要な問題であり、各ビューにおける時間的時間的グループ追跡と、従来のMOTやマルチカメラMOTタスクとは異なる、異なるビューで同一人物を同時に特定することを目的としている。
このようにして、MvMHATの動画はより複雑なアノテーションを必要とし、自己学習のためのより多くの情報を含んでいる。
本研究では,自己教師付き学習型エンドツーエンドネットワークを用いてこの問題に取り組む。
具体的には, 反射率, 対称性, 推移率の3つの特性を考慮し, 空間時間的自己整合性理論の活用を提案する。
自然に保持する反射特性の他に,特徴学習と代入行列最適化の両面において,対称性と推移性の性質に基づく自己教師型学習損失を設計し,時間的・視点的に複数の人間を関連付ける。
さらに、MvMHATの研究を促進するために、異なるアルゴリズムのネットワークトレーニングとテストのための2つの大規模ベンチマークを構築した。
提案手法の有効性を検証するため,提案手法の大規模な評価実験を行った。
ベンチマークとコードを一般公開しました。
関連論文リスト
- Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Multi-view Tracking Using Weakly Supervised Human Motion Prediction [60.972708589814125]
さらに効果的なアプローチは、時間とともに人々の動きを予測し、それらから個々のフレームにおける人々の存在を推定することである、と我々は主張する。
これにより、時間とともに、また1つの時間フレームのビューにわたって一貫性を強制できる。
PETS2009およびWILDTRACKデータセットに対する我々のアプローチを検証するとともに、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T17:58:23Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Multi-View representation learning in Multi-Task Scene [4.509968166110557]
我々は,MTMVCSF(Common and Special Features)に基づくマルチタスク多視点学習(multi-Task Multi-View learning)と呼ばれる,新しい半教師付きアルゴリズムを提案する。
AN-MTMVCSFと呼ばれるマルチタスク・マルチタスク・マルチビュー・アルゴリズムが提案されている。
これらのアルゴリズムの有効性は、実世界と合成データの双方でよく設計された実験によって証明される。
論文 参考訳(メタデータ) (2022-01-15T11:26:28Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z) - Multi-object tracking with self-supervised associating network [5.947279761429668]
人間のラベリングを伴わない短い動画を多数使用して,新たな自己教師型学習手法を提案する。
再識別ネットワークは自己管理方式で訓練されているが、MOTA 62.0% と IDF1 62.6% の最先端性能をMOT17テストベンチマークで達成している。
論文 参考訳(メタデータ) (2020-10-26T08:48:23Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。