論文の概要: Multiple Object Tracking with Correlation Learning
- arxiv url: http://arxiv.org/abs/2104.03541v1
- Date: Thu, 8 Apr 2021 06:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:07:37.831042
- Title: Multiple Object Tracking with Correlation Learning
- Title(参考訳): 相関学習による複数物体追跡
- Authors: Qiang Wang, Yun Zheng, Pan Pan, Yinghui Xu
- Abstract要約: 本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
- 参考スコア(独自算出の注目度): 16.959379957515974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that convolutional networks have substantially
improved the performance of multiple object tracking by simultaneously learning
detection and appearance features. However, due to the local perception of the
convolutional network structure itself, the long-range dependencies in both the
spatial and temporal cannot be obtained efficiently. To incorporate the spatial
layout, we propose to exploit the local correlation module to model the
topological relationship between targets and their surrounding environment,
which can enhance the discriminative power of our model in crowded scenes.
Specifically, we establish dense correspondences of each spatial location and
its context, and explicitly constrain the correlation volumes through
self-supervised learning. To exploit the temporal context, existing approaches
generally utilize two or more adjacent frames to construct an enhanced feature
representation, but the dynamic motion scene is inherently difficult to depict
via CNNs. Instead, our paper proposes a learnable correlation operator to
establish frame-to-frame matches over convolutional feature maps in the
different layers to align and propagate temporal context. With extensive
experimental results on the MOT datasets, our approach demonstrates the
effectiveness of correlation learning with the superior performance and obtains
state-of-the-art MOTA of 76.5% and IDF1 of 73.6% on MOT17.
- Abstract(参考訳): 近年の研究では、畳み込みネットワークは、検出と外観の特徴を同時に学習することにより、複数の物体追跡の性能を大幅に改善した。
しかし、畳み込みネットワーク構造自体の局所的な認識のため、空間的および時間的両方の長距離依存を効率的に得ることはできない。
空間配置を組み込むために, 局所相関モジュールを用いて対象と周囲の環境のトポロジカルな関係をモデル化し, 混み合った場面におけるモデルの識別力を高めることを提案する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
時間的文脈を活用するために、既存のアプローチでは2つ以上の隣接フレームを使用して拡張された特徴表現を構築するが、動的モーションシーンは本質的にCNNを通しての描写が困難である。
そこで本論文では,異なる層における畳み込み特徴マップ上でフレーム対フレームマッチングを確立するための学習可能な相関演算子を提案する。
提案手法は,MOTデータセットの大規模な実験結果により,相関学習と優れた性能の相関学習の有効性を示し,MOT17では76.5%,IDF1では73.6%の最先端MOTAが得られる。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Multi-Temporal Relationship Inference in Urban Areas [75.86026742632528]
場所間の時間的関係を見つけることは、動的なオフライン広告やスマートな公共交通計画など、多くの都市アプリケーションに役立つ。
空間的に進化するグラフニューラルネットワーク(SEENet)を含むグラフ学習方式によるTrialの解を提案する。
SEConvは時間内アグリゲーションと時間間伝搬を実行し、位置メッセージパッシングの観点から、多面的に空間的に進化するコンテキストをキャプチャする。
SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱えるように、グローバルな方法でタイムアウェアな自己教師型学習タスクを設計する。
論文 参考訳(メタデータ) (2023-06-15T07:48:32Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Dynamic Graph Convolutional Network with Attention Fusion for Traffic
Flow Prediction [10.3426659705376]
本稿では,同期時空間相関をモデル化するための注意融合型動的グラフ畳み込みネットワークを提案する。
我々は、4つの実世界の交通データセットにおいて、我々の手法が18のベースライン法と比較して最先端の性能を上回ることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-24T12:21:30Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - DMGCRN: Dynamic Multi-Graph Convolution Recurrent Network for Traffic
Forecasting [7.232141271583618]
以上の問題に対処する新しい動的多重グラフ畳み込み再帰ネットワーク(DMG)を提案する。
距離に基づくグラフを用いて,距離の近いノードから空間情報をキャプチャする。
また,道路間の構造相関を符号化した新しい潜在グラフを構築し,ノードから空間情報をキャプチャする。
論文 参考訳(メタデータ) (2021-12-04T06:51:55Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。