論文の概要: Robust High-Resolution Video Matting with Temporal Guidance
- arxiv url: http://arxiv.org/abs/2108.11515v1
- Date: Wed, 25 Aug 2021 23:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-28 02:13:08.801144
- Title: Robust High-Resolution Video Matting with Temporal Guidance
- Title(参考訳): 時間誘導によるロバスト高分解能ビデオマッチング
- Authors: Shanchuan Lin, Linjie Yang, Imran Saleemi, Soumyadip Sengupta
- Abstract要約: 我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。
提案手法は従来手法よりもはるかに軽量であり,Nvidia GTX 1080Ti GPU上で4Kを76FPSで,HDを104FPSで処理することができる。
- 参考スコア(独自算出の注目度): 14.9739044990367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a robust, real-time, high-resolution human video matting method
that achieves new state-of-the-art performance. Our method is much lighter than
previous approaches and can process 4K at 76 FPS and HD at 104 FPS on an Nvidia
GTX 1080Ti GPU. Unlike most existing methods that perform video matting
frame-by-frame as independent images, our method uses a recurrent architecture
to exploit temporal information in videos and achieves significant improvements
in temporal coherence and matting quality. Furthermore, we propose a novel
training strategy that enforces our network on both matting and segmentation
objectives. This significantly improves our model's robustness. Our method does
not require any auxiliary inputs such as a trimap or a pre-captured background
image, so it can be widely applied to existing human matting applications.
- Abstract(参考訳): 我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。
従来の方法よりもずっと軽量で、4kは76 fps、hdは104 fpsでnvidia gtx 1080ti gpuで処理できる。
フレーム・バイ・フレームを独立画像として行う既存の方法とは異なり,ビデオの時間的情報を活用するために再帰的アーキテクチャを用い,時間的コヒーレンスやマッチング品質の大幅な向上を実現している。
さらに,マッティング目標とセグメンテーション目標の両方にネットワークを強制する新たなトレーニング戦略を提案する。
これにより、モデルの堅牢性が大幅に向上します。
提案手法はトリマップや背景画像などの補助的な入力を必要としないため,既存の人間のマッチングアプリケーションに広く適用することができる。
関連論文リスト
- Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis [51.44526084095757]
画像編集拡散モデルのミニマリストでありながらロバストな適応であるFairyを導入し,映像編集用として拡張する。
提案手法は,フレーム間の拡散特性を暗黙的に伝播させる機構であるアンカーベースクロスフレームアテンションの概念に重点を置いている。
1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法よりも優れた結果をもたらすことを確認します。
論文 参考訳(メタデータ) (2023-12-20T01:49:47Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。
挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文 参考訳(メタデータ) (2022-10-26T16:23:02Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - Learning Long-Term Style-Preserving Blind Video Temporal Consistency [6.6908747077585105]
本論文では, 映像に適用される変換を, 繰り返しニューラルネットワークという形で後処理モデルを提案する。
我々のモデルは、最近GANビデオ生成のために導入されたPing Pongプロシージャとそれに対応する損失を用いて訓練されている。
DAVISとvidevo.netデータセットのモデルを評価し、フリック除去に関する最先端の結果を提供することを示す。
論文 参考訳(メタデータ) (2021-03-12T13:54:34Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。