論文の概要: STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2003.08429v3
- Date: Tue, 18 Aug 2020 17:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 09:58:32.427960
- Title: STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos
- Title(参考訳): STEm-Seg:ビデオにおけるインスタンス分割のための時空間埋め込み
- Authors: Ali Athar, Sabarinath Mahadevan, Aljo\v{s}a O\v{s}ep, Laura
Leal-Taix\'e, Bastian Leibe
- Abstract要約: 既存のビデオ内のインスタンスセグメンテーションの方法は、検出パラダイムを追跡するマルチステージパイプラインを含む。
本研究では,単一ステージにおける時間と空間をまたいだインスタンスの分割と追跡を行う新しい手法を提案する。
我々のネットワークは、時間的埋め込みとクラスタリングに必要なパラメータを学ぶためにエンドツーエンドで訓練されている。
- 参考スコア(独自算出の注目度): 18.017332785445944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for instance segmentation in videos typi-cally involve
multi-stage pipelines that follow the tracking-by-detectionparadigm and model a
video clip as a sequence of images. Multiple net-works are used to detect
objects in individual frames, and then associatethese detections over time.
Hence, these methods are often non-end-to-end trainable and highly tailored to
specific tasks. In this paper, we pro-pose a different approach that is
well-suited to a variety of tasks involvinginstance segmentation in videos. In
particular, we model a video clip asa single 3D spatio-temporal volume, and
propose a novel approach thatsegments and tracks instances across space and
time in a single stage. Ourproblem formulation is centered around the idea of
spatio-temporal em-beddings which are trained to cluster pixels belonging to a
specific objectinstance over an entire video clip. To this end, we introduce
(i) novel mix-ing functions that enhance the feature representation of
spatio-temporalembeddings, and (ii) a single-stage, proposal-free network that
can rea-son about temporal context. Our network is trained end-to-end to
learnspatio-temporal embeddings as well as parameters required to clusterthese
embeddings, thus simplifying inference. Our method achieves state-of-the-art
results across multiple datasets and tasks. Code and modelsare available at
https://github.com/sabarim/STEm-Seg.
- Abstract(参考訳): ビデオのセグメンテーションのような既存の方法は、トラッキング・バイ・プローブ・パラダイムに従って、映像のシーケンスとしてビデオクリップをモデル化する多段パイプラインを含む。
複数のネットワークが個々のフレーム内のオブジェクトを検出し、時間とともに検出を関連付けるために使用される。
したがって、これらの手法はしばしばエンドツーエンドのトレーニングが可能であり、特定のタスクに高度に調整される。
本稿では,ビデオにおけるインスタンスセグメンテーションを含む様々なタスクに適した,異なるアプローチを提案する。
特に,ビデオクリップを1つの3次元空間空間体積としてモデル化し,1つのステージにまたがる空間と時間にまたがるインスタンスをセグメンテーションし追跡する新しいアプローチを提案する。
Ourproblemの定式化は、ビデオクリップ全体に対して特定の対象物に属するピクセルをクラスタリングするように訓練された時空間的エミディングのアイデアを中心に行われる。
この目的のために紹介する
(i)時空間の特徴表現を強化する新しい混合関数、及び
(ii) 時間的文脈についてRerea-sonが可能な単一段階のプロポーザルフリーネットワーク。
我々のネットワークは学習時相埋め込みとクラスタリングに必要なパラメータをエンドツーエンドに訓練し、推論を簡素化する。
本手法は,複数のデータセットとタスクにまたがって最先端の結果を得る。
コードとモデルはhttps://github.com/sabarim/stem-segで入手できる。
関連論文リスト
- Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。