論文の概要: Contrastive Learning for Multi-Object Tracking with Transformers
- arxiv url: http://arxiv.org/abs/2311.08043v1
- Date: Tue, 14 Nov 2023 10:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:37:45.870573
- Title: Contrastive Learning for Multi-Object Tracking with Transformers
- Title(参考訳): 変圧器を用いた多物体追跡のためのコントラスト学習
- Authors: Pierre-Fran\c{c}ois De Plaen, Nicola Marinello, Marc Proesmans, Tinne
Tuytelaars, Luc Van Gool
- Abstract要約: 我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
- 参考スコア(独自算出の注目度): 79.61791059432558
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The DEtection TRansformer (DETR) opened new possibilities for object
detection by modeling it as a translation task: converting image features into
object-level representations. Previous works typically add expensive modules to
DETR to perform Multi-Object Tracking (MOT), resulting in more complicated
architectures. We instead show how DETR can be turned into a MOT model by
employing an instance-level contrastive loss, a revised sampling strategy and a
lightweight assignment method. Our training scheme learns object appearances
while preserving detection capabilities and with little overhead. Its
performance surpasses the previous state-of-the-art by +2.6 mMOTA on the
challenging BDD100K dataset and is comparable to existing transformer-based
methods on the MOT17 dataset.
- Abstract(参考訳): DETR(Detection TRansformer)は、画像特徴をオブジェクトレベルの表現に変換する変換タスクとしてモデル化することで、オブジェクト検出の新しい可能性を開いた。
従来の作業は通常、MOT(Multi-Object Tracking)を実行するためにDETRに高価なモジュールを追加する。
代わりに,インスタンスレベルのコントラスト損失,改良されたサンプリング戦略,軽量な割り当て手法を用いて,detrをmotモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドが少ない。
そのパフォーマンスは、BDD100Kデータセットに+2.6 mMOTAを上回り、MOT17データセット上の既存のトランスフォーマーベースのメソッドに匹敵する。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [60.9306410617744]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Exploring Modulated Detection Transformer as a Tool for Action
Recognition in Videos [0.0]
MDETR(Modulated Detection Transformer)は、エンドツーエンドのマルチモーダル理解モデルである。
設計されていない課題に対処するために,マルチモーダルモデルを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2022-09-21T05:19:39Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - An Empirical Study Of Self-supervised Learning Approaches For Object
Detection With Transformers [0.0]
画像再構成,マスク画像モデリング,ジグソーに基づく自己監督手法について検討する。
iSAIDデータセットの予備実験は、事前学習とマルチタスク学習の両方において、初期のエポックにおけるDETRのより高速な収束を示す。
論文 参考訳(メタデータ) (2022-05-11T14:39:27Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - MOTR: End-to-End Multiple-Object Tracking with TRansformer [31.78906135775541]
初の完全エンドツーエンドのマルチオブジェクトトラッキングフレームワークであるMOTRを紹介します。
オブジェクトの長距離時間変動をモデル化することを学ぶ。
結果はMOTRが最先端の性能を達成することを示します。
論文 参考訳(メタデータ) (2021-05-07T13:27:01Z) - End-to-End Multi-Object Tracking with Global Response Map [23.755882375664875]
画像シーケンス/映像を入力とし、学習対象の位置と追跡対象を直接出力する、完全にエンドツーエンドのアプローチを提案する。
具体的には,提案した多目的表現戦略により,グローバル応答マップをフレーム上で正確に生成することができる。
MOT16 と MOT17 のベンチマークによる実験結果から,提案したオンライントラッカーは,いくつかのトラッキング指標において最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-07-13T12:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。