論文の概要: MOPT: Multi-Object Panoptic Tracking
- arxiv url: http://arxiv.org/abs/2004.08189v2
- Date: Wed, 27 May 2020 14:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:07:34.305956
- Title: MOPT: Multi-Object Panoptic Tracking
- Title(参考訳): mopt:マルチオブジェクトのpanopticトラッキング
- Authors: Juana Valeria Hurtado, Rohit Mohan, Wolfram Burgard, Abhinav Valada
- Abstract要約: マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
- 参考スコア(独自算出の注目度): 33.77171216778909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive understanding of dynamic scenes is a critical prerequisite for
intelligent robots to autonomously operate in their environment. Research in
this domain, which encompasses diverse perception problems, has primarily been
focused on addressing specific tasks individually rather than modeling the
ability to understand dynamic scenes holistically. In this paper, we introduce
a novel perception task denoted as multi-object panoptic tracking (MOPT), which
unifies the conventionally disjoint tasks of semantic segmentation, instance
segmentation, and multi-object tracking. MOPT allows for exploiting pixel-level
semantic information of 'thing' and 'stuff' classes, temporal coherence, and
pixel-level associations over time, for the mutual benefit of each of the
individual sub-problems. To facilitate quantitative evaluations of MOPT in a
unified manner, we propose the soft panoptic tracking quality (sPTQ) metric. As
a first step towards addressing this task, we propose the novel
PanopticTrackNet architecture that builds upon the state-of-the-art top-down
panoptic segmentation network EfficientPS by adding a new tracking head to
simultaneously learn all sub-tasks in an end-to-end manner. Additionally, we
present several strong baselines that combine predictions from state-of-the-art
panoptic segmentation and multi-object tracking models for comparison. We
present extensive quantitative and qualitative evaluations of both vision-based
and LiDAR-based MOPT that demonstrate encouraging results.
- Abstract(参考訳): ダイナミックシーンの包括的理解は、インテリジェントロボットが環境の中で自律的に操作する上で重要な前提条件である。
多様な知覚問題を含むこの領域の研究は、動的シーンの全体的理解能力をモデル化するのではなく、個々のタスクに個別に対処することに焦点を当ててきた。
本稿では,意味セグメンテーション,インスタンスセグメンテーション,マルチオブジェクトトラッキングといった従来と異なるタスクを統合するマルチオブジェクト・パンオプティカル・トラッキング(mopt)と呼ばれる新しい知覚タスクを提案する。
MOPTは、個々のサブプロブレムの相互利益のために、"thing"クラスと"stuff"クラスのピクセルレベルの意味情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
そこで本研究では,MOPTの定量的評価を容易にするために,SPTQ(Soft Panoptic Track Quality)尺度を提案する。
この課題に対処する第一歩として、最先端のパン光学分割ネットワークであるEfficientPS上に構築された新しいPanopticTrackNetアーキテクチャを提案する。
さらに,最先端のパノプティクスセグメンテーションと,比較対象の多対象追跡モデルからの予測を組み合わせた,強力なベースラインを提示する。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
関連論文リスト
- IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z) - Weakly Supervised Multi-Object Tracking and Segmentation [21.7184457265122]
本稿では,マルチオブジェクト追跡と弱教師付きトラッキングの問題について紹介する。
ジョイントの弱い監督インスタンスセグメンテーションとマルチオブジェクトトラッキング。
そこで我々は,マルチタスク学習を活用した新たなシナジートレーニング戦略を考案する。
本研究では,本タスクの代表的なベンチマークであるKITTI MOTSの手法を評価し,車と歩行者の12%と12.7%に,完全監督と弱監督のアプローチによるMOTSPメトリックのパフォーマンスギャップを小さくした。
論文 参考訳(メタデータ) (2021-01-03T17:06:43Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。