Fugu-MT 論文翻訳(概要): Robust High-Resolution Video Matting with Temporal Guidance

論文の概要: Robust High-Resolution Video Matting with Temporal Guidance

arxiv url: http://arxiv.org/abs/2108.11515v1
Date: Wed, 25 Aug 2021 23:48:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-28 02:13:08.801144
Title: Robust High-Resolution Video Matting with Temporal Guidance
Title（参考訳）: 時間誘導によるロバスト高分解能ビデオマッチング
Authors: Shanchuan Lin, Linjie Yang, Imran Saleemi, Soumyadip Sengupta
Abstract要約: 我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。提案手法は従来手法よりもはるかに軽量であり,Nvidia GTX 1080Ti GPU上で4Kを76FPSで,HDを104FPSで処理することができる。
参考スコア（独自算出の注目度）: 14.9739044990367
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a robust, real-time, high-resolution human video matting method that achieves new state-of-the-art performance. Our method is much lighter than previous approaches and can process 4K at 76 FPS and HD at 104 FPS on an Nvidia GTX 1080Ti GPU. Unlike most existing methods that perform video matting frame-by-frame as independent images, our method uses a recurrent architecture to exploit temporal information in videos and achieves significant improvements in temporal coherence and matting quality. Furthermore, we propose a novel training strategy that enforces our network on both matting and segmentation objectives. This significantly improves our model's robustness. Our method does not require any auxiliary inputs such as a trimap or a pre-captured background image, so it can be widely applied to existing human matting applications.
Abstract（参考訳）: 我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。従来の方法よりもずっと軽量で、4kは76 fps、hdは104 fpsでnvidia gtx 1080ti gpuで処理できる。フレーム・バイ・フレームを独立画像として行う既存の方法とは異なり,ビデオの時間的情報を活用するために再帰的アーキテクチャを用い,時間的コヒーレンスやマッチング品質の大幅な向上を実現している。さらに,マッティング目標とセグメンテーション目標の両方にネットワークを強制する新たなトレーニング戦略を提案する。これにより、モデルの堅牢性が大幅に向上します。提案手法はトリマップや背景画像などの補助的な入力を必要としないため,既存の人間のマッチングアプリケーションに広く適用することができる。

関連論文リスト

DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion [4.863177884263436]
本稿では,事前学習した拡散モデルを用いた高速FPSビデオ生成のためのトレーニング不要な手法を提案する。我々の手法であるDiffuseSlideは、低FPSビデオから鍵フレームを活用する新しいパイプラインを導入し、ノイズリジェクションやスライディングウインドウ遅延デノイングといった革新的な手法を適用した。広範にわたる実験により,提案手法は映像品質を著しく改善し,時間的コヒーレンスと空間的忠実度を向上することを示した。
論文参考訳（メタデータ） (2025-06-02T09:12:41Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis [51.44526084095757]
画像編集拡散モデルのミニマリストでありながらロバストな適応であるFairyを導入し,映像編集用として拡張する。提案手法は,フレーム間の拡散特性を暗黙的に伝播させる機構であるアンカーベースクロスフレームアテンションの概念に重点を置いている。 1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法よりも優れた結果をもたらすことを確認します。
論文参考訳（メタデータ） (2023-12-20T01:49:47Z)
Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文参考訳（メタデータ） (2021-08-25T05:12:14Z)
Learning Long-Term Style-Preserving Blind Video Temporal Consistency [6.6908747077585105]
本論文では, 映像に適用される変換を, 繰り返しニューラルネットワークという形で後処理モデルを提案する。我々のモデルは、最近GANビデオ生成のために導入されたPing Pongプロシージャとそれに対応する損失を用いて訓練されている。 DAVISとvidevo.netデータセットのモデルを評価し、フリック除去に関する最先端の結果を提供することを示す。
論文参考訳（メタデータ） (2021-03-12T13:54:34Z)
A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文参考訳（メタデータ） (2020-08-02T13:23:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。