論文の概要: maskGRU: Tracking Small Objects in the Presence of Large Background
Motions
- arxiv url: http://arxiv.org/abs/2201.00467v1
- Date: Mon, 3 Jan 2022 04:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:00:35.099026
- Title: maskGRU: Tracking Small Objects in the Presence of Large Background
Motions
- Title(参考訳): maskGRU:大きな背景運動の存在下で小さな物体を追跡する
- Authors: Constantine J. Roros, Avinash C. Kak
- Abstract要約: 本稿では,ビデオ中の小さな物体の検出と追跡を行うために,マスクGRUというニューラルネットワークを用いた時間的時間的フレームワークを提案する。
マスクを重み付き和で隠蔽状態に組み込む手法には,爆発勾配の影響を制御し,被写体が位置する場所に注目機構を導入するという2つの利点があると考えている。
- 参考スコア(独自算出の注目度): 1.1421942894219896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a recurrent neural network-based spatio-temporal framework named
maskGRU for the detection and tracking of small objects in videos. While there
have been many developments in the area of object tracking in recent years,
tracking a small moving object amid other moving objects and actors (such as a
ball amid moving players in sports footage) continues to be a difficult task.
Existing spatio-temporal networks, such as convolutional Gated Recurrent Units
(convGRUs), are difficult to train and have trouble accurately tracking small
objects under such conditions. To overcome these difficulties, we developed the
maskGRU framework that uses a weighted sum of the internal hidden state
produced by a convGRU and a 3-channel mask of the tracked object's predicted
bounding box as the hidden state to be used at the next time step of the
underlying convGRU. We believe the technique of incorporating a mask into the
hidden state through a weighted sum has two benefits: controlling the effect of
exploding gradients and introducing an attention-like mechanism into the
network by indicating where in the previous video frame the object is located.
Our experiments show that maskGRU outperforms convGRU at tracking objects that
are small relative to the video resolution even in the presence of other moving
objects.
- Abstract(参考訳): 本研究では,ビデオ中の小物体の検出と追跡を行うために,maskgruと呼ばれる再帰的ニューラルネットワークに基づく時空間フレームワークを提案する。
近年、物体追跡の分野では、多くの進展があるが、他の移動物体や俳優(スポーツ映像中の選手の移動中のボールなど)の中で小さな移動物体を追跡することは、依然として難しい課題である。
畳み込みGated Recurrent Units (convGRUs) のような既存の時空間ネットワークは、訓練が困難であり、そのような条件下で小さな物体を正確に追跡することが困難である。
このような課題を克服するために,我々は,convGRUが生成する内部隠蔽状態の重み付け和と,被追跡物体の予測有界箱の3チャネルマスクを,基盤となるconvGRUの次のステップで使用する隠蔽状態として用いるマスクGRUフレームワークを開発した。
マスクを重み付き和で隠蔽状態に組み込む手法には,爆発勾配の影響を制御し,被写体の位置を示すことによって,注目機構をネットワークに導入する,という2つの利点があると考えている。
実験の結果,他の移動物体の存在下においても,映像解像度に対して小さい物体の追跡において,mskGRUはconvGRUよりも優れていた。
関連論文リスト
- SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on
Optical Flow [27.621524657473945]
複数物体追跡(MOT)はコンピュータビジョンにおいてよく研究されている。
しかし、無人航空機(UAV)が撮影したビデオのMOTは、小さな物体の大きさ、ぼやけた物体の外観、そして非常に大きくて不規則な動きのために依然として困難である。
我々はこれらの問題を緩和し、UAVビューで高速かつ正確なMOTに到達するためにFOLTを提案する。
論文 参考訳(メタデータ) (2023-08-14T15:24:44Z) - Tracking Anything in High Quality [63.63653185865726]
HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
論文 参考訳(メタデータ) (2023-07-26T06:19:46Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K
Videos using a Joint Detection-and-Tracking Approach [19.59528430884104]
本稿では,検出と追跡を共同で行うrecurrent correlational networkと呼ばれるニューラルネットワークモデルを提案する。
鳥や無人航空機などの小さな飛行物体の画像を含むデータセットを用いた実験では、提案手法は一貫した改善をもたらした。
我々のネットワークは、鳥の画像データセットのトラッカーとして評価されたとき、最先端の汎用オブジェクトトラッカと同様に機能します。
論文 参考訳(メタデータ) (2021-05-18T03:22:03Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - End-to-end Deep Object Tracking with Circular Loss Function for Rotated
Bounding Box [68.8204255655161]
Transformer Multi-Head Attentionアーキテクチャに基づく新しいエンドツーエンドのディープラーニング手法を紹介します。
また,境界ボックスの重なりと向きを考慮に入れた新しいタイプの損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-17T17:29:29Z) - e-TLD: Event-based Framework for Dynamic Object Tracking [23.026432675020683]
本稿では,一般的な追跡条件下での移動イベントカメラを用いた長期オブジェクト追跡フレームワークを提案する。
このフレームワークは、オンライン学習を伴うオブジェクトの識別表現を使用し、ビューのフィールドに戻るとオブジェクトを検出し、追跡する。
論文 参考訳(メタデータ) (2020-09-02T07:08:56Z) - IA-MOT: Instance-Aware Multi-Object Tracking with Motion Consistency [40.354708148590696]
IA-MOT(Instance-Aware MOT)は、静止カメラまたは移動カメラで複数の物体を追跡できる。
提案手法は,CVPR 2020ワークショップにおけるBMTTチャレンジのトラック3で優勝した。
論文 参考訳(メタデータ) (2020-06-24T03:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。