論文の概要: Flow-based Video Segmentation for Human Head and Shoulders
- arxiv url: http://arxiv.org/abs/2104.09752v1
- Date: Tue, 20 Apr 2021 04:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:41:04.913457
- Title: Flow-based Video Segmentation for Human Head and Shoulders
- Title(参考訳): 頭部・肩部におけるフローベースビデオセグメンテーション
- Authors: Zijian Kuang and Xinran Tie
- Abstract要約: フローベースのエンコーダデコーダネットワーク(FUNet)を提案し,堅牢なリアルタイムビデオセグメンテーションを行う。
また,ビデオと画像のセグメンテーションデータセットである ConferenceVideoSegmentationDataset も紹介する。
コードと事前トレーニングされたモデルは、githubリポジトリから入手できます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video segmentation for the human head and shoulders is essential in creating
elegant media for videoconferencing and virtual reality applications. The main
challenge is to process high-quality background subtraction in a real-time
manner and address the segmentation issues under motion blurs, e.g., shaking
the head or waving hands during conference video. To overcome the motion blur
problem in video segmentation, we propose a novel flow-based encoder-decoder
network (FUNet) that combines both traditional Horn-Schunck optical-flow
estimation technique and convolutional neural networks to perform robust
real-time video segmentation. We also introduce a video and image segmentation
dataset: ConferenceVideoSegmentationDataset. Code and pre-trained models are
available on our GitHub repository:
\url{https://github.com/kuangzijian/Flow-Based-Video-Matting}.
- Abstract(参考訳): 人間の頭と肩の映像セグメンテーションは、ビデオ会議やバーチャルリアリティーアプリケーションのためのエレガントなメディアを作成する上で不可欠である。
主な課題は、高品質なバックグラウンド減算をリアルタイムで処理し、会議ビデオ中に頭を振ったり手を振ったりといった、動きのぼかしの下でセグメンテーション問題に対処することだ。
ビデオセグメンテーションにおける動きのぼやけ問題を克服するため,従来のホルン・シュンク光フロー推定手法と畳み込みニューラルネットワークを組み合わせた新しいフローベースエンコーダ・デコーダネットワーク(funet)を提案し,ロバストなリアルタイム映像セグメンテーションを実現する。
ビデオと画像のセグメンテーションデータセットも紹介する。
コードと事前トレーニングされたモデルは、githubリポジトリで利用可能です。
関連論文リスト
- TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - PP-HumanSeg: Connectivity-Aware Portrait Segmentation with a Large-Scale
Teleconferencing Video Dataset [9.484150543390955]
この研究は、23の会議シーンから291のビデオを含む大規模なビデオポートレートデータセットを初めて構築した。
セマンティック・セグメンテーションのためのセマンティック・コネクティビティ・アウェア・ラーニング(SCL)を提案し,セマンティック・コネクティビティ・アウェア・ロスを導入した。
また,本論文では,IoUと推論速度の最良のトレードオフを実現するために,SCLを用いた超軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-12-14T03:58:00Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Temporally Coherent Person Matting Trained on Fake-Motion Dataset [0.0]
本稿では,トリマップのような付加的なユーザ入力を必要としない人物を描写したビデオのマッチングを行う新しい手法を提案する。
本アーキテクチャは,画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて,結果のアルファ行列の時間的安定性を実現する。
また,地味なアルファ・マットとバックグラウンド・ビデオで撮影されたビデオ・マッティング・ネットワークのトレーニング・クリップを生成するフェイク・モーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-10T12:53:11Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing [38.69833890578639]
ニューラルトークヘッドビデオ合成モデルを提案し,そのビデオ会議への応用を実証する。
本モデルでは,対象者の外見を含む音源画像と,出力中の動きを指示する駆動映像を用いて,対話ヘッド映像の合成を学習する。
論文 参考訳(メタデータ) (2020-11-30T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。