論文の概要: Video-kMaX: A Simple Unified Approach for Online and Near-Online Video
Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2304.04694v1
- Date: Mon, 10 Apr 2023 16:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:24:01.886251
- Title: Video-kMaX: A Simple Unified Approach for Online and Near-Online Video
Panoptic Segmentation
- Title(参考訳): Video-kMaX:オンラインおよびニアオンラインビデオパノプティクスセグメンテーションのためのシンプルな統一アプローチ
- Authors: Inkyu Shin, Dahun Kim, Qihang Yu, Jun Xie, Hong-Seok Kim, Bradley
Green, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen
- Abstract要約: ビデオパノプティクス(VPS)は、すべてのピクセルをセグメント化し、ビデオ内のオブジェクトを関連付けることで、包括的なピクセルレベルのシーン理解を実現することを目的としている。
現在のソリューションは、オンラインおよびほぼオンラインのアプローチに分類することができる。
オンラインおよびほぼオンラインのVPSに対して統一的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 104.27219170531059
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Panoptic Segmentation (VPS) aims to achieve comprehensive pixel-level
scene understanding by segmenting all pixels and associating objects in a
video. Current solutions can be categorized into online and near-online
approaches. Evolving over the time, each category has its own specialized
designs, making it nontrivial to adapt models between different categories. To
alleviate the discrepancy, in this work, we propose a unified approach for
online and near-online VPS. The meta architecture of the proposed Video-kMaX
consists of two components: within clip segmenter (for clip-level segmentation)
and cross-clip associater (for association beyond clips). We propose clip-kMaX
(clip k-means mask transformer) and HiLA-MB (Hierarchical Location-Aware Memory
Buffer) to instantiate the segmenter and associater, respectively. Our general
formulation includes the online scenario as a special case by adopting clip
length of one. Without bells and whistles, Video-kMaX sets a new
state-of-the-art on KITTI-STEP and VIPSeg for video panoptic segmentation, and
VSPW for video semantic segmentation. Code will be made publicly available.
- Abstract(参考訳): ビデオパノプティカル・セグメンテーション(VPS)は、全ピクセルをセグメント化し、ビデオ内のオブジェクトを関連付けることで、包括的なピクセルレベルのシーン理解を実現することを目的としている。
現在のソリューションは、オンラインとほぼオンラインのアプローチに分類できる。
時間とともに進化する各カテゴリは独自の特殊設計を持ち、異なるカテゴリ間のモデルを適応させることは簡単ではない。
そこで本研究では,オンラインおよびオンラインに近いVPSに対して統一的なアプローチを提案する。
提案するビデオkmaxのメタアーキテクチャは,クリップセグメンタ内(クリップレベルのセグメンテーション),クロスクリップアソシエータ(クリップ以外のアソシエータ)という2つのコンポーネントで構成されている。
分割器とアソシエータをそれぞれインスタンス化するために,Click-kMaX (clip k-means mask transformer) と HiLA-MB (hierarchical Location-Aware Memory Buffer) を提案する。
当社の一般的な定式化には,クリップ長を1にすることで,特別なケースとしてオンラインシナリオを含める。
ベルとホイッスルがなければ、video-kmaxはkitti-stepとvipsegでビデオのパオプティカルセグメンテーション、vspwでビデオのセマンティクスセグメンテーションを新たに設定する。
コードは公開される予定だ。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - One-stage Video Instance Segmentation: From Frame-in Frame-out to
Clip-in Clip-out [15.082477136581153]
ビデオクリップの時間情報を利用するクリップインクリップアウト(CiCo)フレームワークを提案する。
CiCo戦略は条件付きフレームアライメントが不要で、既存のFiFoベースのVISアプローチに簡単に組み込むことができる。
2つの新しい1段VISモデルは37.7.3%、35.2/35.4%、17.2/1%のマスクAPを達成した。
論文 参考訳(メタデータ) (2022-03-12T12:23:21Z) - Mask2Former for Video Instance Segmentation [172.10001340104515]
Mask2Formerは、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオセグメンテーションインスタンス上で最先端のパフォーマンスを達成する。
本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:59Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。