論文の概要: PP-HumanSeg: Connectivity-Aware Portrait Segmentation with a Large-Scale
Teleconferencing Video Dataset
- arxiv url: http://arxiv.org/abs/2112.07146v1
- Date: Tue, 14 Dec 2021 03:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:24:03.832063
- Title: PP-HumanSeg: Connectivity-Aware Portrait Segmentation with a Large-Scale
Teleconferencing Video Dataset
- Title(参考訳): pp-humanseg:大規模遠隔会議ビデオデータセットを用いたコネクティビティ対応ポートレートセグメンテーション
- Authors: Lutao Chu, Yi Liu, Zewu Wu, Shiyu Tang, Guowei Chen, Yuying Hao,
Juncai Peng, Zhiliang Yu, Zeyu Chen, Baohua Lai, Haoyi Xiong
- Abstract要約: この研究は、23の会議シーンから291のビデオを含む大規模なビデオポートレートデータセットを初めて構築した。
セマンティック・セグメンテーションのためのセマンティック・コネクティビティ・アウェア・ラーニング(SCL)を提案し,セマンティック・コネクティビティ・アウェア・ロスを導入した。
また,本論文では,IoUと推論速度の最良のトレードオフを実現するために,SCLを用いた超軽量モデルを提案する。
- 参考スコア(独自算出の注目度): 9.484150543390955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the COVID-19 pandemic rampages across the world, the demands of video
conferencing surge. To this end, real-time portrait segmentation becomes a
popular feature to replace backgrounds of conferencing participants. While
feature-rich datasets, models and algorithms have been offered for segmentation
that extract body postures from life scenes, portrait segmentation has yet not
been well covered in a video conferencing context. To facilitate the progress
in this field, we introduce an open-source solution named PP-HumanSeg. This
work is the first to construct a large-scale video portrait dataset that
contains 291 videos from 23 conference scenes with 14K fine-labeled frames and
extensions to multi-camera teleconferencing. Furthermore, we propose a novel
Semantic Connectivity-aware Learning (SCL) for semantic segmentation, which
introduces a semantic connectivity-aware loss to improve the quality of
segmentation results from the perspective of connectivity. And we propose an
ultra-lightweight model with SCL for practical portrait segmentation, which
achieves the best trade-off between IoU and the speed of inference. Extensive
evaluations on our dataset demonstrate the superiority of SCL and our model.
The source code is available at https://github.com/PaddlePaddle/PaddleSeg.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックが世界中に広がり、ビデオ会議の需要が急増している。
この目的のために、リアルタイムのポートレートセグメンテーションは、会議参加者のバックグラウンドを置き換えるために人気のある機能になる。
特徴豊富なデータセット、モデル、アルゴリズムは生活シーンから身体の姿勢を抽出するセグメンテーションのために提供されてきたが、ポートレートセグメンテーションはビデオ会議コンテキストではあまりカバーされていない。
この分野の進展を促進するために,PP-HumanSegというオープンソースのソリューションを導入する。
この研究は、23の会議シーンから291のビデオと14Kのファインラベルフレームとマルチカメラテレカンファレンスの拡張を含む、大規模なビデオポートレートデータセットを初めて構築した。
さらに,セマンティクスセグメンテーションのための新しいセマンティクス接続認識学習(scl)を提案し,セマンティクス接続認識損失を導入し,接続性の観点からセグメンテーション結果の品質を向上させる。
また,本論文では,IoUと推論速度の最良のトレードオフを実現するために,SCLを用いた超軽量モデルを提案する。
データセットの大規模な評価は、SCLとモデルが優れていることを示す。
ソースコードはhttps://github.com/paddlepaddle/paddlesegで入手できる。
関連論文リスト
- Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Flow-based Video Segmentation for Human Head and Shoulders [0.0]
フローベースのエンコーダデコーダネットワーク(FUNet)を提案し,堅牢なリアルタイムビデオセグメンテーションを行う。
また,ビデオと画像のセグメンテーションデータセットである ConferenceVideoSegmentationDataset も紹介する。
コードと事前トレーニングされたモデルは、githubリポジトリから入手できます。
論文 参考訳(メタデータ) (2021-04-20T04:05:36Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。