論文の概要: CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
- arxiv url: http://arxiv.org/abs/2308.07926v2
- Date: Thu, 12 Dec 2024 06:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:23.863286
- Title: CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
- Title(参考訳): CoDeF:一時連続ビデオ処理のためのコンテンツ変形場
- Authors: Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen,
- Abstract要約: CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
- 参考スコア(独自算出の注目度): 86.25225894085105
- License:
- Abstract: We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis. Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline. We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video. With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field. We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training. More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog. Project page can be found at https://qiuyu96.github.io/CoDeF/.
- Abstract(参考訳): 本稿では、ビデオ全体の静的コンテンツを集約する標準コンテンツフィールドと、標準画像(すなわち、標準コンテンツフィールドからレンダリングされた)から時間軸に沿った各フレームへの変換を記録する時間的変形フィールドとからなる、新しいタイプのビデオ表現としてコンテンツ変形フィールドCoDeFを提案する。
対象とするビデオが与えられた場合、これら2つのフィールドは、慎重に調整されたレンダリングパイプラインを通じて、共同で再構成するように最適化される。
我々は、最適化プロセスにいくつかの正規化を導入し、ビデオから意味論(例えば、オブジェクトの形状)を継承するよう、標準コンテンツフィールドに促す。
このような設計により、CoDeFはビデオ処理のためのリフト画像アルゴリズムを自然にサポートし、画像アルゴリズムを標準画像に適用し、時間的変形場の助けを借りて動画全体の結果を積極的に伝播することができる。
実験により,CoDeFは,映像から映像への変換,キーポイント検出,キーポイント検出をトレーニングなしで行うことができることを示した。
さらに重要なのは、アルゴリズムを1つの画像だけにデプロイするリフト戦略のおかげで、既存のビデオからビデオへの翻訳アプローチと比較して、処理されたビデオのクロスフレーム一貫性が向上し、水やスモッグのような厳密でないオブジェクトも追跡できることです。
プロジェクトページはhttps://qiuyu96.github.io/CoDeF/にある。
関連論文リスト
- GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。
我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。
textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-11-01T08:02:57Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。