論文の概要: FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors
- arxiv url: http://arxiv.org/abs/2303.08319v1
- Date: Wed, 15 Mar 2023 02:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:06:20.240801
- Title: FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors
- Title(参考訳): FAQ: Transformer-based Video Object Detectorの機能集約クエリ
- Authors: Yiming Cui
- Abstract要約: 我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
- 参考スコア(独自算出の注目度): 15.897168900583774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object detection needs to solve feature degradation situations that
rarely happen in the image domain. One solution is to use the temporal
information and fuse the features from the neighboring frames. With
Transformerbased object detectors getting a better performance on the image
domain tasks, recent works began to extend those methods to video object
detection. However, those existing Transformer-based video object detectors
still follow the same pipeline as those used for classical object detectors,
like enhancing the object feature representations by aggregation. In this work,
we take a different perspective on video object detection. In detail, we
improve the qualities of queries for the Transformer-based models by
aggregation. To achieve this goal, we first propose a vanilla query aggregation
module that weighted averages the queries according to the features of the
neighboring frames. Then, we extend the vanilla module to a more practical
version, which generates and aggregates queries according to the features of
the input frames. Extensive experimental results validate the effectiveness of
our proposed methods: On the challenging ImageNet VID benchmark, when
integrated with our proposed modules, the current state-of-the-art
Transformer-based object detectors can be improved by more than 2.4% on mAP and
4.2% on AP50.
- Abstract(参考訳): ビデオオブジェクト検出は、画像領域でめったに起こらない機能劣化の状況を解決する必要がある。
一つの解決策は、時間的情報を使い、その特徴を隣のフレームから融合させることである。
Transformerベースのオブジェクト検出器は、画像領域のタスクのパフォーマンスが向上し、最近の研究でこれらのメソッドをビデオオブジェクト検出に拡張し始めた。
しかし、既存のトランスフォーマーベースのビデオオブジェクト検出器は、アグリゲーションによるオブジェクトの特徴表現の強化など、古典的なオブジェクト検出器で使用されるものと同じパイプラインに従っている。
本研究では,映像物体検出に関して異なる視点を定めている。
本稿では,トランスフォーマーモデルに対するクエリのアグリゲーションによる品質向上について述べる。
この目的を達成するために、我々はまず、隣接するフレームの特徴に応じて平均的なクエリを重み付けするバニラクエリアグリゲーションモジュールを提案する。
次に、バニラモジュールをより実用的なバージョンに拡張し、入力フレームの特徴に応じてクエリを生成し集約する。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
関連論文リスト
- Learning Dynamic Query Combinations for Transformer-based Object
Detection and Segmentation [37.24532930188581]
トランスフォーマーに基づく検出とセグメンテーション方法は、学習された検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得する。
学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。
本稿では,画像の高レベルな意味論に基づいて,動的係数と凸の組み合わせを学習することを提案する。
論文 参考訳(メタデータ) (2023-07-23T06:26:27Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文 参考訳(メタデータ) (2022-10-02T17:54:15Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - End-to-End Video Object Detection with Spatial-Temporal Transformers [33.40462554784311]
本稿では,時空間トランスフォーマアーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。
本手法では,Seq-NMSやチューブレット再構成のような複雑な後処理は不要である。
これらの設計により、ImageNet VIDデータセット上の大きなマージン(3%-4% mAP)で、強力なベースライン変形可能なDETRが向上した。
論文 参考訳(メタデータ) (2021-05-23T11:44:22Z) - Ensembling object detectors for image and video data analysis [98.26061123111647]
本稿では,複数の物体検出器の出力をアンサンブルすることで,画像データ上の境界ボックスの検出性能と精度を向上させる手法を提案する。
本研究では,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。
論文 参考訳(メタデータ) (2021-02-09T12:38:16Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z) - Plug & Play Convolutional Regression Tracker for Video Object Detection [37.47222104272429]
ビデオオブジェクト検出ターゲットは、オブジェクトのバウンディングボックスを同時にローカライズし、所定のビデオ内のクラスを識別する。
ビデオオブジェクト検出の課題のひとつは、ビデオ全体にわたるすべてのオブジェクトを一貫して検出することだ。
ビデオオブジェクト検出タスクのためのPlug & Playスケール適応型畳み込みレグレッショントラッカーを提案する。
論文 参考訳(メタデータ) (2020-03-02T15:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。