論文の概要: Identity-Consistent Aggregation for Video Object Detection
- arxiv url: http://arxiv.org/abs/2308.07737v1
- Date: Tue, 15 Aug 2023 12:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:02:55.921027
- Title: Identity-Consistent Aggregation for Video Object Detection
- Title(参考訳): ビデオオブジェクト検出のためのアイデンティティ一貫性アグリゲーション
- Authors: Chaorui Deng, Da Chen, Qi Wu
- Abstract要約: ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
- 参考スコア(独自算出の注目度): 21.295859014601334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Video Object Detection (VID), a common practice is to leverage the rich
temporal contexts from the video to enhance the object representations in each
frame. Existing methods treat the temporal contexts obtained from different
objects indiscriminately and ignore their different identities. While
intuitively, aggregating local views of the same object in different frames may
facilitate a better understanding of the object. Thus, in this paper, we aim to
enable the model to focus on the identity-consistent temporal contexts of each
object to obtain more comprehensive object representations and handle the rapid
object appearance variations such as occlusion, motion blur, etc. However,
realizing this goal on top of existing VID models faces low-efficiency problems
due to their redundant region proposals and nonparallel frame-wise prediction
manner. To aid this, we propose ClipVID, a VID model equipped with
Identity-Consistent Aggregation (ICA) layers specifically designed for mining
fine-grained and identity-consistent temporal contexts. It effectively reduces
the redundancies through the set prediction strategy, making the ICA layers
very efficient and further allowing us to design an architecture that makes
parallel clip-wise predictions for the whole video clip. Extensive experimental
results demonstrate the superiority of our method: a state-of-the-art (SOTA)
performance (84.7% mAP) on the ImageNet VID dataset while running at a speed
about 7x faster (39.3 fps) than previous SOTAs.
- Abstract(参考訳): ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
既存の方法は、異なる対象から得られた時間的文脈を無差別に扱い、それらの異なるアイデンティティを無視する。
直感的には、同じオブジェクトのローカルビューを異なるフレームに集約することで、オブジェクトをより理解しやすくなります。
そこで本稿では,各対象の同一性に一貫性のある時間的文脈に着目し,より包括的な対象表現を求め,オクルージョンや動きのぼかしなどの物体の出現変化を迅速に処理することを目的としている。
しかし、既存のVIDモデル上でこの目標を実現するには、冗長な領域の提案と非並列フレームの予測方法により、効率の低い問題が発生する。
そこで本研究では,細粒度かつアイデンティティ一貫性のある時間的コンテキストをマイニングするために,ICA(Identity-Consistent Aggregation)層を備えたVIDモデルであるClipVIDを提案する。
これにより、セット予測戦略による冗長性を効果的に低減し、ICA層を極めて効率的にし、ビデオクリップ全体に対して並列なクリップワイズ予測を行うアーキテクチャを設計することができる。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文 参考訳(メタデータ) (2022-10-02T17:54:15Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。