論文の概要: Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos
- arxiv url: http://arxiv.org/abs/2004.00451v2
- Date: Fri, 6 Nov 2020 12:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 19:03:36.177106
- Title: Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos
- Title(参考訳): ビデオにおける時空間チューブレットの特徴集約とオブジェクトリンク
- Authors: Daniel Cores, V\'ictor M. Brea and Manuel Mucientes
- Abstract要約: 論文は、オブジェクト分類を改善するために、利用可能なビデオの時間情報をどのように活用するかという問題に対処する。
本稿では,FANetと呼ばれる2段階の物体検出器を提案する。
- 参考スコア(独自算出の注目度): 2.4923006485141284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of how to exploit spatio-temporal
information available in videos to improve the object detection precision. We
propose a two stage object detector called FANet based on short-term
spatio-temporal feature aggregation to give a first detection set, and
long-term object linking to refine these detections. Firstly, we generate a set
of short tubelet proposals containing the object in $N$ consecutive frames.
Then, we aggregate RoI pooled deep features through the tubelet using a
temporal pooling operator that summarizes the information with a fixed size
output independent of the number of input frames. On top of that, we define a
double head implementation that we feed with spatio-temporal aggregated
information for spatio-temporal object classification, and with spatial
information extracted from the current frame for object localization and
spatial classification. Furthermore, we also specialize each head branch
architecture to better perform in each task taking into account the input data.
Finally, a long-term linking method builds long tubes using the previously
calculated short tubelets to overcome detection errors. We have evaluated our
model in the widely used ImageNet VID dataset achieving a 80.9% mAP, which is
the new state-of-the-art result for single models. Also, in the challenging
small object detection dataset USC-GRAD-STDdb, our proposal outperforms the
single frame baseline by 5.4% mAP.
- Abstract(参考訳): 本稿では,映像中の時空間情報を利用して物体検出精度を向上させる方法について述べる。
本稿では, 短時間の時空間的特徴集合に基づく2段階物体検出器FANetと, これらの検出を洗練するための長期物体リンクを提案する。
まず、オブジェクトを$N$連続フレームに収めた短いチューブレットの提案セットを生成する。
次に、入力フレーム数に依存しない固定サイズ出力で情報を要約する時間プーリング演算子を用いて、管路を通して深い特徴をプールしたRoIを集約する。
その上に,時空間的対象分類のための時空間的集約情報と,対象の局在と空間的分類のための現在のフレームから抽出された空間情報とをフィードするダブルヘッド実装を定義する。
さらに、各ヘッドブランチアーキテクチャを特化し、入力データを考慮した各タスクの実行性を向上させる。
最後に, 従来計算した短絡を用いて長い管を構築し, 検出誤差を克服する。
我々は、このモデルを広く使われているImageNet VIDデータセットで評価し、80.9%のmAPを達成した。
また,超小型オブジェクト検出データセットUSC-GRAD-STDdbでは,単一フレームのベースラインを5.4%向上させる。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Spatio-Temporal Learnable Proposals for End-to-End Video Object
Detection [12.650574326251023]
本稿では、Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。
提案手法は1フレームのSparse RCNNをmAPで8%-9%改善する。
論文 参考訳(メタデータ) (2022-10-05T16:17:55Z) - ST-DETR: Spatio-Temporal Object Traces Attention Detection Transformer [2.4366811507669124]
本研究では,時間的フレーム列からのオブジェクト検出のための時空間変換器アーキテクチャを提案する。
両次元にまたがる特徴相関を利用するために, 注意機構をフルに活用する。
その結果,KITTI MODデータセットでは5%のmAP改善が見られた。
論文 参考訳(メタデータ) (2021-07-13T07:38:08Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。