論文の概要: Flow-based Video Segmentation for Human Head and Shoulders
- arxiv url: http://arxiv.org/abs/2104.09752v1
- Date: Tue, 20 Apr 2021 04:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:41:04.913457
- Title: Flow-based Video Segmentation for Human Head and Shoulders
- Title(参考訳): 頭部・肩部におけるフローベースビデオセグメンテーション
- Authors: Zijian Kuang and Xinran Tie
- Abstract要約: フローベースのエンコーダデコーダネットワーク(FUNet)を提案し,堅牢なリアルタイムビデオセグメンテーションを行う。
また,ビデオと画像のセグメンテーションデータセットである ConferenceVideoSegmentationDataset も紹介する。
コードと事前トレーニングされたモデルは、githubリポジトリから入手できます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video segmentation for the human head and shoulders is essential in creating
elegant media for videoconferencing and virtual reality applications. The main
challenge is to process high-quality background subtraction in a real-time
manner and address the segmentation issues under motion blurs, e.g., shaking
the head or waving hands during conference video. To overcome the motion blur
problem in video segmentation, we propose a novel flow-based encoder-decoder
network (FUNet) that combines both traditional Horn-Schunck optical-flow
estimation technique and convolutional neural networks to perform robust
real-time video segmentation. We also introduce a video and image segmentation
dataset: ConferenceVideoSegmentationDataset. Code and pre-trained models are
available on our GitHub repository:
\url{https://github.com/kuangzijian/Flow-Based-Video-Matting}.
- Abstract(参考訳): 人間の頭と肩の映像セグメンテーションは、ビデオ会議やバーチャルリアリティーアプリケーションのためのエレガントなメディアを作成する上で不可欠である。
主な課題は、高品質なバックグラウンド減算をリアルタイムで処理し、会議ビデオ中に頭を振ったり手を振ったりといった、動きのぼかしの下でセグメンテーション問題に対処することだ。
ビデオセグメンテーションにおける動きのぼやけ問題を克服するため,従来のホルン・シュンク光フロー推定手法と畳み込みニューラルネットワークを組み合わせた新しいフローベースエンコーダ・デコーダネットワーク(funet)を提案し,ロバストなリアルタイム映像セグメンテーションを実現する。
ビデオと画像のセグメンテーションデータセットも紹介する。
コードと事前トレーニングされたモデルは、githubリポジトリで利用可能です。
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [91.33490377573166]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち30で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Unfolding a blurred image [36.519356428362286]
我々は、教師なしの方法でシャープビデオから動きの表現を学習する。
次に、ビデオ再構成の代用タスクを実行する畳み込みリカレントビデオオートエンコーダネットワークを訓練する。
ぼやけた画像のためのモーションエンコーダのガイドトレーニングに使用される。
このネットワークは、ぼやけた画像から埋め込み動作情報を抽出し、トレーニングされたリカレントビデオデコーダとともにシャープなビデオを生成する。
論文 参考訳(メタデータ) (2022-01-28T09:39:55Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - PP-HumanSeg: Connectivity-Aware Portrait Segmentation with a Large-Scale
Teleconferencing Video Dataset [9.484150543390955]
この研究は、23の会議シーンから291のビデオを含む大規模なビデオポートレートデータセットを初めて構築した。
セマンティック・セグメンテーションのためのセマンティック・コネクティビティ・アウェア・ラーニング(SCL)を提案し,セマンティック・コネクティビティ・アウェア・ロスを導入した。
また,本論文では,IoUと推論速度の最良のトレードオフを実現するために,SCLを用いた超軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-12-14T03:58:00Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Temporally Coherent Person Matting Trained on Fake-Motion Dataset [0.0]
本稿では,トリマップのような付加的なユーザ入力を必要としない人物を描写したビデオのマッチングを行う新しい手法を提案する。
本アーキテクチャは,画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて,結果のアルファ行列の時間的安定性を実現する。
また,地味なアルファ・マットとバックグラウンド・ビデオで撮影されたビデオ・マッティング・ネットワークのトレーニング・クリップを生成するフェイク・モーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-10T12:53:11Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing [38.69833890578639]
ニューラルトークヘッドビデオ合成モデルを提案し,そのビデオ会議への応用を実証する。
本モデルでは,対象者の外見を含む音源画像と,出力中の動きを指示する駆動映像を用いて,対話ヘッド映像の合成を学習する。
論文 参考訳(メタデータ) (2020-11-30T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。