論文の概要: DFA: Dynamic Feature Aggregation for Efficient Video Object Detection
- arxiv url: http://arxiv.org/abs/2210.00588v1
- Date: Sun, 2 Oct 2022 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:32:57.309621
- Title: DFA: Dynamic Feature Aggregation for Efficient Video Object Detection
- Title(参考訳): DFA:効率的なビデオオブジェクト検出のための動的特徴集約
- Authors: Yiming Cui
- Abstract要約: 本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
- 参考スコア(独自算出の注目度): 15.897168900583774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection is a fundamental yet challenging task in computer
vision. One practical solution is to take advantage of temporal information
from the video and apply feature aggregation to enhance the object features in
each frame. Though effective, those existing methods always suffer from low
inference speeds because they use a fixed number of frames for feature
aggregation regardless of the input frame. Therefore, this paper aims to
improve the inference speed of the current feature aggregation-based video
object detectors while maintaining their performance. To achieve this goal, we
propose a vanilla dynamic aggregation module that adaptively selects the frames
for feature enhancement. Then, we extend the vanilla dynamic aggregation module
to a more effective and reconfigurable deformable version. Finally, we
introduce inplace distillation loss to improve the representations of objects
aggregated with fewer frames. Extensive experimental results validate the
effectiveness and efficiency of our proposed methods: On the ImageNet VID
benchmark, integrated with our proposed methods, FGFA and SELSA can improve the
inference speed by 31% and 76% respectively while getting comparable
performance on accuracy.
- Abstract(参考訳): ビデオオブジェクト検出はコンピュータビジョンの基本的な課題である。
実用的な解決策の1つは、ビデオからの時間的情報を活用し、各フレームのオブジェクト機能を強化するために特徴集約を適用することである。
有効ではあるが、既存のメソッドは入力フレームに関係なく特徴集約に一定数のフレームを使用するため、常に低い推論速度に苦しんでいる。
そこで本稿は,現在の特徴集約型映像物体検出器の性能を維持しつつ,その推定速度を向上させることを目的とする。
この目的を達成するために,機能拡張のためのフレームを適応的に選択するバニラ動的集約モジュールを提案する。
次に、バニラ動的集約モジュールをより効果的で再構成可能な変形可能なバージョンに拡張します。
最後に,少ないフレームで集約されたオブジェクトの表現を改善するために,インプレース蒸留損失を導入する。
imagenet vidベンチマークでは,提案手法と統合して,fgfa と selsa はそれぞれ31%,76% の推論速度を向上し,精度で同等の性能を得ることができた。
関連論文リスト
- Identity-Consistent Aggregation for Video Object Detection [21.295859014601334]
ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
論文 参考訳(メタデータ) (2023-08-15T12:30:22Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - TF-Blender: Temporal Feature Blender for Video Object Detection [6.369234802164117]
孤立したビデオフレームが外観劣化に遭遇する可能性があるため、ビデオの対物検出は難しい課題である。
1) 時間的関係は、空間情報を保存するために、現在のフレームと隣接するフレームの関係を変調する。
その単純さのために、TF-Blenderはあらゆる検出ネットワークに懸命に接続して検出動作を改善することができる。
論文 参考訳(メタデータ) (2021-08-12T16:01:34Z) - A Generic Object Re-identification System for Short Videos [39.662850217144964]
オブジェクト検出モジュールにはTIFN(Temporal Information Fusion Network)が提案されている。
The Cross-Layer Pointwise Siamese Network (CPSN) is proposed to enhance the robustness of the appearance model。
実世界のショートビデオを含む2つの課題データセットは、ビデオオブジェクトの軌跡抽出とジェネリックオブジェクトの再同定のために構築されている。
論文 参考訳(メタデータ) (2021-02-10T05:45:09Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Video Super-Resolution with Recurrent Structure-Detail Network [120.1149614834813]
ほとんどのビデオ超解像法は、時間的スライディングウィンドウ内の隣接するフレームの助けを借りて単一の参照フレームを超解する。
本稿では,従来のフレームを有効かつ効率的に利用し,現行のフレームを超解する新しいビデオ超解法を提案する。
論文 参考訳(メタデータ) (2020-08-02T11:01:19Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。