論文の概要: Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer
- arxiv url: http://arxiv.org/abs/2211.05654v1
- Date: Wed, 9 Nov 2022 07:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:32:14.805059
- Title: Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer
- Title(参考訳): 空間認識トランスを用いた効率的な関節検出と複数物体追跡
- Authors: Siddharth Sagar Nijhawan, Leo Hoshikawa, Atsushi Irie, Masakazu
Yoshimura, Junji Otsuka, Takeshi Ohashi
- Abstract要約: マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。
CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
- 参考スコア(独自算出の注目度): 0.8808021343665321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a light-weight and highly efficient Joint Detection and Tracking
pipeline for the task of Multi-Object Tracking using a fully-transformer
architecture. It is a modified version of TransTrack, which overcomes the
computational bottleneck associated with its design, and at the same time,
achieves state-of-the-art MOTA score of 73.20%. The model design is driven by a
transformer based backbone instead of CNN, which is highly scalable with the
input resolution. We also propose a drop-in replacement for Feed Forward
Network of transformer encoder layer, by using Butterfly Transform Operation to
perform channel fusion and depth-wise convolution to learn spatial context
within the feature maps, otherwise missing within the attention maps of the
transformer. As a result of our modifications, we reduce the overall model size
of TransTrack by 58.73% and the complexity by 78.72%. Therefore, we expect our
design to provide novel perspectives for architecture optimization in future
research related to multi-object tracking.
- Abstract(参考訳): 完全変換器アーキテクチャを用いた多目的追跡のための軽量で高効率な関節検出・追跡パイプラインを提案する。
TransTrackの修正版であり、設計に伴う計算ボトルネックを克服し、同時に最先端のMOTAスコア73.20%を達成している。
モデル設計はCNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
また,トランスコーダ層のフィードフォワードネットワークのドロップイン代替として,バタフライ変換操作を用いてチャネル融合と深さ方向畳み込みを行い,特徴マップ内の空間的文脈を学習する手法を提案する。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
そこで我々は,多対象追跡に関する今後の研究において,アーキテクチャ最適化の新しい視点を提供することを期待している。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Strong-TransCenter: Improved Multi-Object Tracking based on Transformers
with Dense Representations [1.2891210250935146]
TransCenterはトランスフォーマーベースのMOTアーキテクチャで、すべてのオブジェクトを正確に追跡するための高密度なオブジェクトクエリを備えている。
本稿では,トラック・バイ・ディテクト・パラダイムに基づくポスト処理機構を用いたトラッカーの改良について述べる。
新しいトラッカーでは,IDF1とHOTAの指標が大幅に改善され,MOTAの指標に匹敵する結果が得られた。
論文 参考訳(メタデータ) (2022-10-24T19:47:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Efficient Visual Tracking with Exemplar Transformers [98.62550635320514]
本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。
Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。
これは、他のトランスモデルよりも最大8倍高速である。
論文 参考訳(メタデータ) (2021-12-17T18:57:54Z) - Siamese Transformer Pyramid Networks for Real-Time UAV Tracking [3.0969191504482243]
本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。
航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。
我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
論文 参考訳(メタデータ) (2021-10-17T13:48:31Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。