論文の概要: TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking
- arxiv url: http://arxiv.org/abs/2103.15145v1
- Date: Sun, 28 Mar 2021 14:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:01:11.205063
- Title: TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking
- Title(参考訳): TransCenter:マルチオブジェクトトラッキングのためのDense Queries付きトランスフォーマー
- Authors: Yihong Xu, Yutong Ban, Guillaume Delorme, Chuang Gan, Daniela Rus,
Xavier Alameda-Pineda
- Abstract要約: 私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
- 参考スコア(独自算出の注目度): 87.75122600164167
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer networks have proven extremely powerful for a wide variety of
tasks since they were introduced. Computer vision is not an exception, as the
use of transformers has become very popular in the vision community in recent
years. Despite this wave, multiple-object tracking (MOT) exhibits for now some
sort of incompatibility with transformers. We argue that the standard
representation -- bounding boxes -- is not adapted to learning transformers for
MOT. Inspired by recent research, we propose TransCenter, the first
transformer-based architecture for tracking the centers of multiple targets.
Methodologically, we propose the use of dense queries in a double-decoder
network, to be able to robustly infer the heatmap of targets' centers and
associate them through time. TransCenter outperforms the current
state-of-the-art in multiple-object tracking, both in MOT17 and MOT20. Our
ablation study demonstrates the advantage in the proposed architecture compared
to more naive alternatives. The code will be made publicly available.
- Abstract(参考訳): トランスフォーマーネットワークは、導入以来、さまざまなタスクで非常に強力であることが証明されている。
コンピュータビジョンは例外ではなく、近年ではトランスフォーマーの使用が視覚コミュニティで非常に人気になっている。
この波にもかかわらず、MOT(Multiple-object Tracking)はトランスフォーマーと何らかの非互換性を示す。
標準表現 -- 境界ボックス -- はMOTの学習トランスフォーマーに適応していない、と我々は主張する。
最近の研究から着想を得たTransCenterは,複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャである。
本研究では,2重デコーダネットワークにおいて,ターゲットの中心のヒートマップをロバストに推定し,時間を通じてそれらを関連付ける手法を提案する。
TransCenterは、MOT17とMOT20の両方において、現在の最先端のマルチオブジェクトトラッキングよりも優れている。
本研究は,より単純な代替案と比較して,提案アーキテクチャの利点を実証するものである。
コードは公開される予定だ。
関連論文リスト
- The Progression of Transformers from Language to Vision to MOT: A Literature Review on Multi-Object Tracking with Transformers [0.0]
トランスフォーマーニューラルネットワークアーキテクチャは、自動回帰シーケンス・ツー・シーケンスモデリングを可能にする。
トランスフォーマーは様々なパターン認識タスク、特にコンピュータビジョンにも応用されている。
論文 参考訳(メタデータ) (2024-06-24T16:45:28Z) - Strong-TransCenter: Improved Multi-Object Tracking based on Transformers
with Dense Representations [1.2891210250935146]
TransCenterはトランスフォーマーベースのMOTアーキテクチャで、すべてのオブジェクトを正確に追跡するための高密度なオブジェクトクエリを備えている。
本稿では,トラック・バイ・ディテクト・パラダイムに基づくポスト処理機構を用いたトラッカーの改良について述べる。
新しいトラッカーでは,IDF1とHOTAの指標が大幅に改善され,MOTAの指標に匹敵する結果が得られた。
論文 参考訳(メタデータ) (2022-10-24T19:47:58Z) - Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。
しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。
本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文 参考訳(メタデータ) (2022-10-21T12:17:12Z) - Transformers in Remote Sensing: A Survey [76.95730131233424]
我々は、リモートセンシングにおけるトランスフォーマーに基づく進化の体系的レビューを初めて行った。
本調査では,60以上の変圧器を用いたリモートセンシング手法について検討した。
リモートセンシングにおけるトランスフォーマーの様々な課題とオープンな課題を議論し、調査を締めくくった。
論文 参考訳(メタデータ) (2022-09-02T17:57:05Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。