Fugu-MT 論文翻訳(概要): Encode-in-Style: Latent-based Video Encoding using StyleGAN2

論文の概要: Encode-in-Style: Latent-based Video Encoding using StyleGAN2

arxiv url: http://arxiv.org/abs/2203.14512v1
Date: Mon, 28 Mar 2022 05:44:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 04:53:44.327284
Title: Encode-in-Style: Latent-based Video Encoding using StyleGAN2
Title（参考訳）: Encode-in-Style: StyleGAN2を用いた潜在型ビデオ符号化
Authors: Trevine Oorloff, Yaser Yacoob
Abstract要約: 本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
参考スコア（独自算出の注目度）: 0.7614628596146599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose an end-to-end facial video encoding approach that facilitates data-efficient high-quality video re-synthesis by optimizing low-dimensional edits of a single Identity-latent. The approach builds on StyleGAN2 image inversion and multi-stage non-linear latent-space editing to generate videos that are nearly comparable to input videos. It economically captures face identity, head-pose, and complex facial motions at fine levels, and thereby bypasses training and person modeling which tend to hamper many re-synthesis approaches. The approach is designed with maximum data efficiency, where a single W+ latent and 35 parameters per frame enable high-fidelity video rendering. This pipeline can also be used for puppeteering (i.e., motion transfer).
Abstract（参考訳）: 本稿では,1つのアイデンティティラテントの低次元編集を最適化することにより,データ効率のよい高品質な映像再生を容易にする。このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。経済的には、顔のアイデンティティ、ヘッドポジション、複雑な顔の動きを微妙に捉え、それによって多くの再合成アプローチを妨げる訓練や人体モデリングをバイパスする。このアプローチは最大データ効率で設計されており、1フレームあたりのW+遅延値と35パラメータが高忠実度ビデオレンダリングを可能にする。このパイプラインは、操舵(運動移動)にも使用できる。

関連論文リスト

VideoWeave: A Data-Centric Approach for Efficient Video Understanding [54.5804686337209]
我々は、合成長文学習サンプルを構築して、データ効率を改善するためのシンプルで効果的な方法であるVideoWeaveを提案する。 VideoWeaveは、利用可能なビデオテキストペアを再編成して、固定計算内で時間的多様性を拡大する。我々の結果は、アーキテクチャを変更するのではなく、トレーニングデータを再編成することで、ビデオ言語モデルをトレーニングするためのシンプルでスケーラブルなパスを提供できることを強調している。
論文参考訳（メタデータ） (2026-01-09T20:55:26Z)
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality [48.231357260785195]
リビングスワップ(LivingSwap)は、最初のビデオ参照ガイド付き顔交換モデルである。ビデオコンディショニングとビデオレファレンスガイダンスを組み合わせることで、時間的縫合を行い、安定したアイデンティティと高忠実度再構成を実現する。本手法は,映像の表現,照明,動きとターゲットの同一性を統合し,手動による製作作業を大幅に削減する。
論文参考訳（メタデータ） (2025-12-08T19:00:04Z)
Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文参考訳（メタデータ） (2025-08-11T12:18:55Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文参考訳（メタデータ） (2025-03-07T17:59:46Z)
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文参考訳（メタデータ） (2024-12-15T18:58:32Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Depth Any Video with Scalable Synthetic Data [98.42356740981839]
多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
論文参考訳（メタデータ） (2024-10-14T17:59:46Z)
Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文参考訳（メタデータ） (2024-10-14T05:34:32Z)
Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens [28.03183316628635]
本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
論文参考訳（メタデータ） (2024-10-11T03:24:21Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。このようなパイプラインには,魅力的なメリットが3つあります。
論文参考訳（メタデータ） (2023-12-07T18:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。