論文の概要: STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2003.08429v4
- Date: Fri, 1 Sep 2023 13:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:48:30.435092
- Title: STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos
- Title(参考訳): STEm-Seg:ビデオにおけるインスタンス分割のための時空間埋め込み
- Authors: Ali Athar, Sabarinath Mahadevan, Aljo\v{s}a O\v{s}ep, Laura
Leal-Taix\'e, Bastian Leibe
- Abstract要約: 例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
- 参考スコア(独自算出の注目度): 17.232631075144592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for instance segmentation in videos typically involve
multi-stage pipelines that follow the tracking-by-detection paradigm and model
a video clip as a sequence of images. Multiple networks are used to detect
objects in individual frames, and then associate these detections over time.
Hence, these methods are often non-end-to-end trainable and highly tailored to
specific tasks. In this paper, we propose a different approach that is
well-suited to a variety of tasks involving instance segmentation in videos. In
particular, we model a video clip as a single 3D spatio-temporal volume, and
propose a novel approach that segments and tracks instances across space and
time in a single stage. Our problem formulation is centered around the idea of
spatio-temporal embeddings which are trained to cluster pixels belonging to a
specific object instance over an entire video clip. To this end, we introduce
(i) novel mixing functions that enhance the feature representation of
spatio-temporal embeddings, and (ii) a single-stage, proposal-free network that
can reason about temporal context. Our network is trained end-to-end to learn
spatio-temporal embeddings as well as parameters required to cluster these
embeddings, thus simplifying inference. Our method achieves state-of-the-art
results across multiple datasets and tasks. Code and models are available at
https://github.com/sabarim/STEm-Seg.
- Abstract(参考訳): ビデオのセグメンテーションのような既存の手法では、追跡・検出パラダイムに従ってビデオクリップを一連の画像としてモデル化する多段パイプラインが一般的である。
複数のネットワークを使用して個々のフレーム内のオブジェクトを検出し、その検出を時間とともに関連付ける。
したがって、これらの手法はしばしばエンドツーエンドのトレーニングが可能であり、特定のタスクに高度に調整される。
本稿では,ビデオにおけるインスタンス分割に関する様々なタスクに適した,異なるアプローチを提案する。
特に,ビデオクリップを1つの3次元空間空間体積としてモデル化し,1つのステージにまたがる空間と時間にまたがるインスタンスをセグメンテーションし追跡する新しいアプローチを提案する。
問題の定式化は、ビデオクリップ全体にわたって特定のオブジェクトインスタンスに属するピクセルをクラスタリングするように訓練された時空間埋め込みのアイデアを中心にしている。
この目的のために紹介する
(i)時空間埋め込みの特徴表現を強化する新規混合関数、及び
(ii)時間的文脈を推論できる単一段階のプロポーザルフリーネットワーク。
我々のネットワークは、時空間埋め込みとこれらの埋め込みをクラスタ化するために必要なパラメータを学習するためにエンドツーエンドで訓練されている。
本手法は,複数のデータセットとタスクにまたがって最先端の結果を得る。
コードとモデルはhttps://github.com/sabarim/stem-segで入手できる。
関連論文リスト
- Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。