論文の概要: Temporal RoI Align for Video Object Recognition
- arxiv url: http://arxiv.org/abs/2109.03495v1
- Date: Wed, 8 Sep 2021 08:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:46:11.590216
- Title: Temporal RoI Align for Video Object Recognition
- Title(参考訳): ビデオオブジェクト認識のための時間RoIアライメント
- Authors: Tao Gong, Kai Chen, Xinjiang Wang, Qi Chu, Feng Zhu, Dahua Lin,
Nenghai Yu, Huamin Feng
- Abstract要約: 提案したTemporal RoI Alignオペレータは、提案のためにビデオ全体から時間情報を抽出することができる。
我々は、これを単フレームビデオ検出器や他の最先端ビデオ検出器に統合し、定量的実験を行い、提案した時間RoI Alignオペレーターが連続的に性能を著しく向上できることを実証する。
- 参考スコア(独自算出の注目度): 107.07049115214924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection is challenging in the presence of appearance
deterioration in certain video frames. Therefore, it is a natural choice to
aggregate temporal information from other frames of the same video into the
current frame. However, RoI Align, as one of the most core procedures of video
detectors, still remains extracting features from a single-frame feature map
for proposals, making the extracted RoI features lack temporal information from
videos. In this work, considering the features of the same object instance are
highly similar among frames in a video, a novel Temporal RoI Align operator is
proposed to extract features from other frames feature maps for current frame
proposals by utilizing feature similarity. The proposed Temporal RoI Align
operator can extract temporal information from the entire video for proposals.
We integrate it into single-frame video detectors and other state-of-the-art
video detectors, and conduct quantitative experiments to demonstrate that the
proposed Temporal RoI Align operator can consistently and significantly boost
the performance. Besides, the proposed Temporal RoI Align can also be applied
into video instance segmentation.
- Abstract(参考訳): ビデオのオブジェクト検出は、特定のビデオフレームの外観劣化の存在下では困難である。
したがって、同じビデオの他のフレームから時間情報を現在のフレームに集約することは自然な選択である。
しかし、ビデオ検出器の最も中核的な手順の1つであるRoI Alignは、提案のために単一フレームの機能マップから機能を抽出し続けているため、抽出されたRoI機能はビデオから時間情報を欠いている。
本研究では,ビデオのフレーム間で同一のオブジェクトインスタンスの特徴が極めてよく似ていることを考慮し,他のフレームの特徴マップから特徴を抽出し,特徴の類似性を利用して特徴を抽出する手法を提案する。
提案する時間的roiアライメント演算子はビデオ全体から時間的情報を抽出して提案することができる。
提案手法を単一フレーム映像検出器や他の最先端映像検出器に統合し,提案する時間的roiアライメント演算子の一貫性と性能向上を定量的に検証した。
さらに、提案された時間的roiアライメントは、ビデオインスタンスのセグメンテーションにも適用できる。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Video Imprint [107.1365846180187]
複雑なイベント検索,認識,記録のための統合ビデオ分析フレームワーク(ER3)が提案されている。
提案したビデオインプリント表現は、ビデオフレーム間の画像特徴間の時間的相関を利用する。
ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールに入力される。
論文 参考訳(メタデータ) (2021-06-07T00:32:47Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。