論文の概要: Towards Unbalanced Motion: Part-Decoupling Network for Video Portrait
Segmentation
- arxiv url: http://arxiv.org/abs/2307.16565v1
- Date: Mon, 31 Jul 2023 10:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:50:10.351900
- Title: Towards Unbalanced Motion: Part-Decoupling Network for Video Portrait
Segmentation
- Title(参考訳): 非平衡運動に向けて:ビデオポートレートセグメンテーションのための部分分離ネットワーク
- Authors: Tianshu Yu, Changqun Xia, Jia Li
- Abstract要約: 本稿では,大規模マルチシーン映像ポートレートデータセットMVPSを提案する。
データセットには多様なシーンと複雑な背景環境がある。
本稿では,映像のポートレートセグメンテーションのためのPart-Decoupling Network (PDNet)を提案する。
- 参考スコア(独自算出の注目度): 32.72052613007944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video portrait segmentation (VPS), aiming at segmenting prominent foreground
portraits from video frames, has received much attention in recent years.
However, simplicity of existing VPS datasets leads to a limitation on extensive
research of the task. In this work, we propose a new intricate large-scale
Multi-scene Video Portrait Segmentation dataset MVPS consisting of 101 video
clips in 7 scenario categories, in which 10,843 sampled frames are finely
annotated at pixel level. The dataset has diverse scenes and complicated
background environments, which is the most complex dataset in VPS to our best
knowledge. Through the observation of a large number of videos with portraits
during dataset construction, we find that due to the joint structure of human
body, motion of portraits is part-associated, which leads that different parts
are relatively independent in motion. That is, motion of different parts of the
portraits is unbalanced. Towards this unbalance, an intuitive and reasonable
idea is that different motion states in portraits can be better exploited by
decoupling the portraits into parts. To achieve this, we propose a
Part-Decoupling Network (PDNet) for video portrait segmentation. Specifically,
an Inter-frame Part-Discriminated Attention (IPDA) module is proposed which
unsupervisely segments portrait into parts and utilizes different attentiveness
on discriminative features specified to each different part. In this way,
appropriate attention can be imposed to portrait parts with unbalanced motion
to extract part-discriminated correlations, so that the portraits can be
segmented more accurately. Experimental results demonstrate that our method
achieves leading performance with the comparison to state-of-the-art methods.
- Abstract(参考訳): 映像フレームから目立ったフォアグラウンドのポートレートをセグメンテーションすることを目的としたビデオポートレートセグメンテーション(vps)が近年注目を集めている。
しかし、既存のVPSデータセットの単純さは、タスクの広範な研究に制限をもたらす。
そこで本研究では、10,843個のサンプルフレームを画素レベルで微調整した101個の映像クリップからなる,複雑な多シーン映像画像分割データセットmvpを提案する。
データセットには多様なシーンと複雑な背景環境があり、VPSで最も複雑なデータセットである。
データセット構築中に多数の人物像を有する映像を観察した結果,人体の関節構造により,人物像の動きは部分的に関連しており,各部位が相対的に独立していることが明らかとなった。
つまり、肖像画の異なる部分の動きは不均衡である。
この不均衡に向けて、直観的で合理的な考えは、ポートレートの異なる動き状態が、ポートレートを部分に分割することでよりうまく活用できるということである。
これを実現するために,ビデオポートレートセグメンテーションのためのPart-Decoupling Network (PDNet)を提案する。
具体的には、フレーム間部品識別注意(IPDA)モジュールを提案し、ポートレートを部品に分割し、各部品に指定された識別的特徴に対して異なる注意力を利用する。
このように、不均衡な動きのポートレート部分に適切な注意を払って部分識別相関を抽出し、ポートレートをより正確にセグメント化することができる。
実験の結果,最先端手法との比較により,先行性能が得られた。
関連論文リスト
- EasyPortrait -- Face Parsing and Portrait Segmentation Dataset [79.16635054977068]
リアルタイムの背景除去や顔の美化といったコンピュータビジョンベースの機能を実現することで,ビデオ会議アプリが機能的になった。
これらのタスクを同時に行うために、新しいデータセット、EasyPortraitを作成します。
13,705人のユニークなユーザーと9つのクラスに分かれたきめ細かいセグメンテーションマスクを備えた、ビデオ会議のシナリオを繰り返す4万枚の屋内写真が含まれている。
論文 参考訳(メタデータ) (2023-04-26T12:51:34Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Learning Pixel-Level Distinctions for Video Highlight Detection [39.23271866827123]
我々は,ビデオハイライト検出を改善するために,画素レベルの区別を学習することを提案する。
このピクセルレベルの区別は、あるビデオの各ピクセルが興味深いセクションに属しているかどうかを示す。
画素レベルの区別を推定するために,エンコーダ・デコーダネットワークを設計する。
論文 参考訳(メタデータ) (2022-04-10T06:41:16Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - PP-HumanSeg: Connectivity-Aware Portrait Segmentation with a Large-Scale
Teleconferencing Video Dataset [9.484150543390955]
この研究は、23の会議シーンから291のビデオを含む大規模なビデオポートレートデータセットを初めて構築した。
セマンティック・セグメンテーションのためのセマンティック・コネクティビティ・アウェア・ラーニング(SCL)を提案し,セマンティック・コネクティビティ・アウェア・ロスを導入した。
また,本論文では,IoUと推論速度の最良のトレードオフを実現するために,SCLを用いた超軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-12-14T03:58:00Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。