論文の概要: QueryProp: Object Query Propagation for High-Performance Video Object
Detection
- arxiv url: http://arxiv.org/abs/2207.10959v1
- Date: Fri, 22 Jul 2022 09:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:09:15.511728
- Title: QueryProp: Object Query Propagation for High-Performance Video Object
Detection
- Title(参考訳): QueryProp: 高性能ビデオオブジェクト検出のためのオブジェクトクエリプロパゲーション
- Authors: Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang
- Abstract要約: 本稿では,オブジェクトレベルの特徴伝搬について検討し,高性能なビデオオブジェクト検出のためのオブジェクトクエリ伝搬(QueryProp)フレームワークを提案する。
QueryPropは最先端のメソッドで同等の精度を実現し、適切な精度/速度のトレードオフを行う。
- 参考スコア(独自算出の注目度): 40.51299089198839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection has been an important yet challenging topic in
computer vision. Traditional methods mainly focus on designing the image-level
or box-level feature propagation strategies to exploit temporal information.
This paper argues that with a more effective and efficient feature propagation
framework, video object detectors can gain improvement in terms of both
accuracy and speed. For this purpose, this paper studies object-level feature
propagation, and proposes an object query propagation (QueryProp) framework for
high-performance video object detection. The proposed QueryProp contains two
propagation strategies: 1) query propagation is performed from sparse key
frames to dense non-key frames to reduce the redundant computation on non-key
frames; 2) query propagation is performed from previous key frames to the
current key frame to improve feature representation by temporal context
modeling. To further facilitate query propagation, an adaptive propagation gate
is designed to achieve flexible key frame selection. We conduct extensive
experiments on the ImageNet VID dataset. QueryProp achieves comparable accuracy
with state-of-the-art methods and strikes a decent accuracy/speed trade-off.
Code is available at https://github.com/hf1995/QueryProp.
- Abstract(参考訳): ビデオオブジェクト検出はコンピュータビジョンにおいて重要かつ困難なトピックである。
従来の手法は主に、時間情報を活用するための画像レベルまたはボックスレベルの特徴伝搬戦略の設計に重点を置いている。
本稿では,より効率的かつ効率的な特徴伝搬フレームワークにより,ビデオオブジェクト検出器は精度と速度の両面で向上できると主張している。
本稿では,オブジェクトレベルの特徴伝達について検討し,高性能ビデオオブジェクト検出のためのobject query propagation(queryprop)フレームワークを提案する。
提案するクエリプロップは2つの伝播戦略を含んでいる。
1)スパースキーフレームから密度の高い非キーフレームへのクエリ伝搬を行い、非キーフレームの冗長な計算を低減する。
2) 先行キーフレームから現在のキーフレームへのクエリ伝達を行い、時間的コンテキストモデリングによる特徴表現を改善する。
さらにクエリの伝達を容易にするため、適応型伝搬ゲートは柔軟なキーフレーム選択を実現するよう設計されている。
imagenet vidデータセットに関する広範な実験を行う。
QueryPropは最先端のメソッドで同等の精度を実現し、適切な精度/速度のトレードオフを行う。
コードはhttps://github.com/hf1995/QueryProp.comで入手できる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Identity-Consistent Aggregation for Video Object Detection [21.295859014601334]
ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
論文 参考訳(メタデータ) (2023-08-15T12:30:22Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Real-Time and Accurate Object Detection in Compressed Video by Long
Short-term Feature Aggregation [30.73836337432833]
ビデオオブジェクト検出は、検出速度と精度の限界を押し上げるために研究される。
コスト削減のため、ビデオ中のキーフレームをあまりサンプリングせず、残りのフレームはキーフレームではないように扱います。
大きくて深いネットワークはキーフレームの特徴を抽出するのに使われ、小さなネットワークはキーでないフレームに使われます。
提案するビデオオブジェクト検出ネットワークは,大規模なImageNet VIDベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2021-03-25T01:38:31Z) - Ensembling object detectors for image and video data analysis [98.26061123111647]
本稿では,複数の物体検出器の出力をアンサンブルすることで,画像データ上の境界ボックスの検出性能と精度を向上させる手法を提案する。
本研究では,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。
論文 参考訳(メタデータ) (2021-02-09T12:38:16Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。