論文の概要: TGCN: Time Domain Graph Convolutional Network for Multiple Objects
Tracking
- arxiv url: http://arxiv.org/abs/2101.01861v1
- Date: Wed, 6 Jan 2021 04:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:14:36.996634
- Title: TGCN: Time Domain Graph Convolutional Network for Multiple Objects
Tracking
- Title(参考訳): TGCN:マルチオブジェクト追跡のための時間領域グラフ畳み込みネットワーク
- Authors: Jie Zhang
- Abstract要約: 複数のオブジェクト追跡は、ビデオ内の各オブジェクトにIDを与える。
マッチング機能には、外観機能、位置情報機能などが含まれる。
本稿では,複数オブジェクト追跡のための時間領域グラフ畳み込みネットワークを提案する。
- 参考スコア(独自算出の注目度): 5.408882973190155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple object tracking is to give each object an id in the video. The
difficulty is how to match the predicted objects and detected objects in same
frames. Matching features include appearance features, location features, etc.
These features of the predicted object are basically based on some previous
frames. However, few papers describe the relationship in the time domain
between the previous frame features and the current frame features.In this
paper, we proposed a time domain graph convolutional network for multiple
objects tracking.The model is mainly divided into two parts, we first use
convolutional neural network (CNN) to extract pedestrian appearance feature,
which is a normal operation processing image in deep learning, then we use GCN
to model some past frames' appearance feature to get the prediction appearance
feature of the current frame. Due to this extension, we can get the pose
features of the current frame according to the relationship between some frames
in the past. Experimental evaluation shows that our extensions improve the MOTA
by 1.3 on the MOT16, achieving overall competitive performance at high frame
rates.
- Abstract(参考訳): 複数のオブジェクト追跡は、ビデオ内の各オブジェクトにIDを与える。
難しいのは、予測されたオブジェクトと検出されたオブジェクトを同じフレームでマッチングする方法だ。
マッチング機能には、外観機能、位置情報機能などが含まれる。
予測対象のこれらの特徴は、基本的には以前のフレームに基づいている。
However, few papers describe the relationship in the time domain between the previous frame features and the current frame features.In this paper, we proposed a time domain graph convolutional network for multiple objects tracking.The model is mainly divided into two parts, we first use convolutional neural network (CNN) to extract pedestrian appearance feature, which is a normal operation processing image in deep learning, then we use GCN to model some past frames' appearance feature to get the prediction appearance feature of the current frame.
この拡張により、過去のいくつかのフレーム間の関係に応じて、現在のフレームのポーズ特徴を得ることができる。
実験評価の結果,mot16ではmotaが1.3倍向上し,高いフレームレートで性能が向上した。
関連論文リスト
- Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Graph Neural Network and Spatiotemporal Transformer Attention for 3D
Video Object Detection from Point Clouds [94.21415132135951]
複数のフレームにおける時間情報を利用して3次元物体を検出することを提案する。
我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-26T05:16:28Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - GCNNMatch: Graph Convolutional Neural Networks for Multi-Object Tracking
via Sinkhorn Normalization [5.705895203925818]
本稿では、グラフ畳み込みニューラルネットワーク(GCNN)に基づく特徴抽出と、オブジェクトアソシエーションのためのエンドツーエンド特徴マッチングを用いた、オンライン多目的追跡(MOT)のための新しい手法を提案する。
グラフベースのアプローチでは、過去のフレームのオブジェクトの外観と幾何学だけでなく、現在のフレームも特徴学習のタスクに組み込まれている。
論文 参考訳(メタデータ) (2020-09-30T19:18:44Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。