論文の概要: CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation
- arxiv url: http://arxiv.org/abs/2311.00987v1
- Date: Thu, 2 Nov 2023 04:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:52:41.166566
- Title: CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation
- Title(参考訳): CML-MOTS:マルチオブジェクト追跡とセグメンテーションのための協調型マルチタスク学習
- Authors: Yiming Cui, Cheng Han, Dongfang Liu
- Abstract要約: ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
- 参考スコア(独自算出の注目度): 31.167405688707575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of computer vision has pushed visual analysis tasks from
still images to the video domain. In recent years, video instance segmentation,
which aims to track and segment multiple objects in video frames, has drawn
much attention for its potential applications in various emerging areas such as
autonomous driving, intelligent transportation, and smart retail. In this
paper, we propose an effective framework for instance-level visual analysis on
video frames, which can simultaneously conduct object detection, instance
segmentation, and multi-object tracking. The core idea of our method is
collaborative multi-task learning which is achieved by a novel structure, named
associative connections among detection, segmentation, and tracking task heads
in an end-to-end learnable CNN. These additional connections allow information
propagation across multiple related tasks, so as to benefit these tasks
simultaneously. We evaluate the proposed method extensively on KITTI MOTS and
MOTS Challenge datasets and obtain quite encouraging results.
- Abstract(参考訳): コンピュータビジョンの進歩は、静止画像からビデオ領域への視覚解析タスクを推し進めている。
近年、ビデオフレーム内の複数のオブジェクトを追跡し、セグメント化することを目的としたビデオインスタンスセグメンテーションが、自動運転、インテリジェントトランスポート、スマート小売など、新興分野の潜在的な応用に多くの注目を集めている。
本稿では,オブジェクト検出,インスタンスセグメンテーション,マルチオブジェクト追跡を同時に行うことができる,ビデオフレームのインスタンスレベルの視覚分析のための効果的なフレームワークを提案する。
本手法の核となる概念は,エンドツーエンド学習可能なcnnにおける検出,セグメント化,追跡タスクヘッド間の連想接続という新しい構造によって達成される協調型マルチタスク学習である。
これらの追加接続により、複数の関連するタスクにまたがる情報伝達が可能になる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットに基づいて広範に評価し, 極めて有望な結果を得た。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Deep Learning Techniques for Video Instance Segmentation: A Survey [19.32547752428875]
ビデオインスタンスセグメンテーションは、2019年に導入された新しいコンピュータビジョン研究分野である。
ディープラーニング技術は、様々なコンピュータビジョン領域において支配的な役割を担っている。
このサーベイは、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供する。
論文 参考訳(メタデータ) (2023-10-19T00:27:30Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。