論文の概要: STEP: Segmenting and Tracking Every Pixel
- arxiv url: http://arxiv.org/abs/2102.11859v1
- Date: Tue, 23 Feb 2021 18:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:57:59.050475
- Title: STEP: Segmenting and Tracking Every Pixel
- Title(参考訳): STEP:全Pixelのセグメンテーションと追跡
- Authors: Mark Weber, Jun Xie, Maxwell Collins, Yukun Zhu, Paul Voigtlaender,
Hartwig Adam, Bradley Green, Andreas Geiger, Bastian Leibe, Daniel Cremers,
Aljosa Osep, Laura Leal-Taixe, Liang-Chieh Chen
- Abstract要約: 新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
- 参考スコア(独自算出の注目度): 107.23184053133636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle video panoptic segmentation, a task that requires
assigning semantic classes and track identities to all pixels in a video. To
study this important problem in a setting that requires a continuous
interpretation of sensory data, we present a new benchmark: Segmenting and
Tracking Every Pixel (STEP), encompassing two datasets, KITTI-STEP, and
MOTChallenge-STEP together with a new evaluation metric. Our work is the first
that targets this task in a real-world setting that requires dense
interpretation in both spatial and temporal domains. As the ground-truth for
this task is difficult and expensive to obtain, existing datasets are either
constructed synthetically or only sparsely annotated within short video clips.
By contrast, our datasets contain long video sequences, providing challenging
examples and a test-bed for studying long-term pixel-precise segmentation and
tracking. For measuring the performance, we propose a novel evaluation metric
Segmentation and Tracking Quality (STQ) that fairly balances semantic and
tracking aspects of this task and is suitable for evaluating sequences of
arbitrary length. We will make our datasets, metric, and baselines publicly
available.
- Abstract(参考訳): 本稿では,ビデオ中のすべての画素に意味クラスを割り当て,識別性を追跡するタスクであるvideo panoptic segmentationについて述べる。
センサデータの連続的な解釈を必要とする設定において、この重要な問題を研究するために、新しい評価指標として、KITTI-STEPとMOTChallenge-STEPの2つのデータセットを含むSegmenting and Tracking Every Pixel (STEP)を提案する。
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
このタスクの根拠は困難で高価であるため、既存のデータセットは合成的に構築されるか、短いビデオクリップ内でわずかなアノテートされるだけです。
対照的に、私たちのデータセットには長いビデオシーケンスがあり、チャレンジングな例と、長期のピクセル精度のセグメンテーションとトラッキングのためのテストベッドを提供します。
性能測定のために, このタスクのセマンティックとトラッキングの側面を公平にバランスさせ, 任意の長さのシーケンスを評価するのに適した, 新たな評価指標 Segmentation and Tracking Quality (STQ) を提案する。
データセット、メトリクス、ベースラインを一般公開します。
関連論文リスト
- Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Structured Summarization: Unified Text Segmentation and Segment Labeling
as a Generation Task [16.155438404910043]
長い文書や会話を処理できる1つのエンコーダ・デコーダニューラルネットワークを提案する。
我々は、組み合わせたタスクを純粋な生成タスクとして解決する方法をうまく示す。
本結果は,テキストのセグメンテーションとセグメントラベリングを全体として検討する上で,強力なケースを確立した。
論文 参考訳(メタデータ) (2022-09-28T01:08:50Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Quantifying the Task-Specific Information in Text-Based Classifications [20.148222318025528]
データセットのショートカットは、分類タスクの*task-specific information*(TSI)に寄与しない。
本稿では,データセットの分類にタスク固有の情報がどの程度必要かを検討する。
このフレームワークはデータセット間の比較を可能にし、"一連のショートカット機能"とは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4ナットのTSIが含まれている、と述べている。
論文 参考訳(メタデータ) (2021-10-17T21:54:38Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。