論文の概要: DFA: Dynamic Feature Aggregation for Efficient Video Object Detection
- arxiv url: http://arxiv.org/abs/2210.00588v1
- Date: Sun, 2 Oct 2022 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:32:57.309621
- Title: DFA: Dynamic Feature Aggregation for Efficient Video Object Detection
- Title(参考訳): DFA:効率的なビデオオブジェクト検出のための動的特徴集約
- Authors: Yiming Cui
- Abstract要約: 本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
- 参考スコア(独自算出の注目度): 15.897168900583774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection is a fundamental yet challenging task in computer
vision. One practical solution is to take advantage of temporal information
from the video and apply feature aggregation to enhance the object features in
each frame. Though effective, those existing methods always suffer from low
inference speeds because they use a fixed number of frames for feature
aggregation regardless of the input frame. Therefore, this paper aims to
improve the inference speed of the current feature aggregation-based video
object detectors while maintaining their performance. To achieve this goal, we
propose a vanilla dynamic aggregation module that adaptively selects the frames
for feature enhancement. Then, we extend the vanilla dynamic aggregation module
to a more effective and reconfigurable deformable version. Finally, we
introduce inplace distillation loss to improve the representations of objects
aggregated with fewer frames. Extensive experimental results validate the
effectiveness and efficiency of our proposed methods: On the ImageNet VID
benchmark, integrated with our proposed methods, FGFA and SELSA can improve the
inference speed by 31% and 76% respectively while getting comparable
performance on accuracy.
- Abstract(参考訳): ビデオオブジェクト検出はコンピュータビジョンの基本的な課題である。
実用的な解決策の1つは、ビデオからの時間的情報を活用し、各フレームのオブジェクト機能を強化するために特徴集約を適用することである。
有効ではあるが、既存のメソッドは入力フレームに関係なく特徴集約に一定数のフレームを使用するため、常に低い推論速度に苦しんでいる。
そこで本稿は,現在の特徴集約型映像物体検出器の性能を維持しつつ,その推定速度を向上させることを目的とする。
この目的を達成するために,機能拡張のためのフレームを適応的に選択するバニラ動的集約モジュールを提案する。
次に、バニラ動的集約モジュールをより効果的で再構成可能な変形可能なバージョンに拡張します。
最後に,少ないフレームで集約されたオブジェクトの表現を改善するために,インプレース蒸留損失を導入する。
imagenet vidベンチマークでは,提案手法と統合して,fgfa と selsa はそれぞれ31%,76% の推論速度を向上し,精度で同等の性能を得ることができた。
関連論文リスト
- VADet: Multi-frame LiDAR 3D Object Detection using Variable Aggregation [4.33608942673382]
本稿では,変数アグリゲーションに対して,VADetと呼ぶ効率的な適応手法を提案する。
VADetは、速度や点密度など、オブジェクトの観察された特性によって決定されるフレーム数とともに、オブジェクトごとのアグリゲーションを実行する。
その利点を示すために、VADetを3つの一般的な単一ステージ検出器に適用し、データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-20T10:36:41Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Identity-Consistent Aggregation for Video Object Detection [21.295859014601334]
ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
論文 参考訳(メタデータ) (2023-08-15T12:30:22Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。