論文の概要: Video K-Net: A Simple, Strong, and Unified Baseline for Video
Segmentation
- arxiv url: http://arxiv.org/abs/2204.04656v1
- Date: Sun, 10 Apr 2022 11:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:29:00.337799
- Title: Video K-Net: A Simple, Strong, and Unified Baseline for Video
Segmentation
- Title(参考訳): Video K-Net:ビデオセグメンテーションのためのシンプルで強力で統一されたベースライン
- Authors: Xiangtai Li, Wenwei Zhang, Jiangmiao Pang, Kai Chen, Guangliang Cheng,
Yunhai Tong, Chen Change Loy
- Abstract要約: Video K-Netは、エンドツーエンドのビデオパノラマセグメンテーションのためのフレームワークである。
学習可能なカーネルのグループを通じてイメージセグメンテーションを統一する。
Video K-Netが"things"と"stuff"を同時にセグメンテーションし追跡することを学ぶ
- 参考スコア(独自算出の注目度): 85.08156742410527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Video K-Net, a simple, strong, and unified framework for
fully end-to-end video panoptic segmentation. The method is built upon K-Net, a
method that unifies image segmentation via a group of learnable kernels. We
observe that these learnable kernels from K-Net, which encode object
appearances and contexts, can naturally associate identical instances across
video frames. Motivated by this observation, Video K-Net learns to
simultaneously segment and track "things" and "stuff" in a video with simple
kernel-based appearance modeling and cross-temporal kernel interaction. Despite
the simplicity, it achieves state-of-the-art video panoptic segmentation
results on Citscapes-VPS and KITTI-STEP without bells and whistles. In
particular on KITTI-STEP, the simple method can boost almost 12\% relative
improvements over previous methods. We also validate its generalization on
video semantic segmentation, where we boost various baselines by 2\% on the
VSPW dataset. Moreover, we extend K-Net into clip-level video framework for
video instance segmentation where we obtain 40.5\% for ResNet50 backbone and
51.5\% mAP for Swin-base on YouTube-2019 validation set. We hope this simple
yet effective method can serve as a new flexible baseline in video
segmentation. Both code and models are released at
https://github.com/lxtGH/Video-K-Net
- Abstract(参考訳): 本稿では,完全エンドツーエンドの映像パノプティファイションのための,シンプルで強力で統一されたフレームワークであるVideo K-Netを提案する。
K-Netは、学習可能なカーネルのグループを通じてイメージセグメンテーションを統一する手法である。
オブジェクトの外観やコンテキストをエンコードするK-Netのこれらの学習可能なカーネルは、ビデオフレーム間で自然に同一のインスタンスを関連付けることができる。
この観察によって動機づけられたVideo K-Netは、単純なカーネルベースの外観モデリングと時間的カーネル間相互作用を備えたビデオにおいて、"ings"と"stuff"を同時にセグメントし、追跡することを学ぶ。
シンプルさにもかかわらず、Citscapes-VPSとKITTI-STEPでは、ベルやホイッスルを使わずに、最先端のビデオパノプティクスのセグメンテーション結果が得られる。
特にKITTI-STEPでは、従来の方法に比べて12%近く改善されている。
また、ビデオセマンティックセグメンテーションの一般化を検証し、VSPWデータセット上で様々なベースラインを2\%向上させる。
さらに、K-Netをビデオインスタンスセグメンテーション用のクリップレベルビデオフレームワークに拡張し、ResNet50バックボーンで40.5\%、YouTube-2019バリデーションセットでSwin-baseで51.5\%mAPを得る。
このシンプルで効果的な方法が、ビデオセグメンテーションの新しい柔軟なベースラインとなることを願っています。
コードもモデルもhttps://github.com/lxtgh/video-k-netでリリース
関連論文リスト
- DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - K-Net: Towards Unified Image Segmentation [78.32096542571257]
K-Netと名付けられたこのフレームワークは、学習可能なカーネルのグループによってインスタンスとセマンティックカテゴリの両方を一貫して分割する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
論文 参考訳(メタデータ) (2021-06-28T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。