論文の概要: Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection
- arxiv url: http://arxiv.org/abs/2412.04915v1
- Date: Fri, 06 Dec 2024 10:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:08.699514
- Title: Beyond Boxes: Mask-Guided Spatio-Temporal Feature Aggregation for Video Object Detection
- Title(参考訳): Beyond Boxes: ビデオオブジェクト検出のためのマスクガイド付き時空間的特徴集約
- Authors: Khurram Azeem Hashmi, Talha Uddin Sheikh, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: 本稿では、インスタンスマスク機能を活用することで、時間的特徴集約を強化する新しいVOD手法であるFAIMを提案する。
YOLOXをベース検出器として使用するFAIMは、イメージネットVIDデータセットの87.9%のmAPを、1つの2080Ti GPU上で33 FPSで達成している。
- 参考スコア(独自算出の注目度): 12.417754433715903
- License:
- Abstract: The primary challenge in Video Object Detection (VOD) is effectively exploiting temporal information to enhance object representations. Traditional strategies, such as aggregating region proposals, often suffer from feature variance due to the inclusion of background information. We introduce a novel instance mask-based feature aggregation approach, significantly refining this process and deepening the understanding of object dynamics across video frames. We present FAIM, a new VOD method that enhances temporal Feature Aggregation by leveraging Instance Mask features. In particular, we propose the lightweight Instance Feature Extraction Module (IFEM) to learn instance mask features and the Temporal Instance Classification Aggregation Module (TICAM) to aggregate instance mask and classification features across video frames. Using YOLOX as a base detector, FAIM achieves 87.9% mAP on the ImageNet VID dataset at 33 FPS on a single 2080Ti GPU, setting a new benchmark for the speed-accuracy trade-off. Additional experiments on multiple datasets validate that our approach is robust, method-agnostic, and effective in multi-object tracking, demonstrating its broader applicability to video understanding tasks.
- Abstract(参考訳): ビデオオブジェクト検出(VOD)の主な課題は、時間情報を効果的に活用してオブジェクト表現を強化することである。
地域提案を集約するといった従来の戦略は、背景情報を含むため、しばしば特徴のばらつきに悩まされる。
本稿では,このプロセスを大幅に改善し,ビデオフレーム間のオブジェクトのダイナミクスの理解を深める,新しいインスタンスマスクベースの特徴集約手法を提案する。
本稿では、インスタンスマスク機能を活用することで、時間的特徴集約を強化する新しいVOD手法であるFAIMを提案する。
特に、インスタンスマスクの特徴を学習するための軽量なインスタンス特徴抽出モジュール(IFEM)と、ビデオフレーム間でインスタンスマスクと分類機能を集約する時間インスタンス分類集約モジュール(TICAM)を提案する。
YOLOXをベース検出器として使用したFAIMは、ImageNet VIDデータセットの87.9% mAPを、1つの2080Ti GPU上で33 FPSで達成し、速度精度トレードオフのための新しいベンチマークを設定する。
複数のデータセットに関する追加実験は、我々のアプローチが堅牢で、メソッドに依存し、マルチオブジェクト追跡に有効であることを検証し、ビデオ理解タスクにその広範な適用性を示す。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - BoxMask: Revisiting Bounding Box Supervision for Video Object Detection [11.255962936937744]
そこで,BoxMaskを提案する。このBoxMaskは,クラス対応の画素レベルの情報を取り入れることで,識別表現を学習する。
提案されたモジュールは、検出を促進するため、任意の領域ベースの検出器に懸命に統合することができる。
論文 参考訳(メタデータ) (2022-10-12T08:25:27Z) - DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文 参考訳(メタデータ) (2022-10-02T17:54:15Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。