論文の概要: Texture-aware Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2102.13520v1
- Date: Fri, 26 Feb 2021 14:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:46:31.090130
- Title: Texture-aware Video Frame Interpolation
- Title(参考訳): テクスチャアウェアビデオフレーム補間
- Authors: Duolikun Danier and David Bull
- Abstract要約: 映像テクスチャーが映像フレーム合成に与える影響について検討し、アルゴリズムを付与し、異なるテクスチャーで別々のモデルを訓練する新しいフレームワークを提案する。
本研究は,映像テクスチャがフレームモデルの性能に有意な影響を与えていることを示し,汎用的な動作を学習する単一モデルをトレーニングする代わりに,これらのテクスチャクラスに特化して個別のモデルを持つことが有益である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal interpolation has the potential to be a powerful tool for video
compression. Existing methods for frame interpolation do not discriminate
between video textures and generally invoke a single general model capable of
interpolating a wide range of video content. However, past work on video
texture analysis and synthesis has shown that different textures exhibit vastly
different motion characteristics and they can be divided into three classes
(static, dynamic continuous and dynamic discrete). In this work, we study the
impact of video textures on video frame interpolation, and propose a novel
framework where, given an interpolation algorithm, separate models are trained
on different textures. Our study shows that video texture has significant
impact on the performance of frame interpolation models and it is beneficial to
have separate models specifically adapted to these texture classes, instead of
training a single model that tries to learn generic motion. Our results
demonstrate that models fine-tuned using our framework achieve, on average, a
0.3dB gain in PSNR on the test set used.
- Abstract(参考訳): 時間的補間は、ビデオ圧縮の強力なツールになる可能性がある。
既存のフレーム補間法では,映像テクスチャの識別は行われず,広い範囲の映像コンテンツを補間できる単一汎用モデルが一般的に用いられる。
しかし, 映像テクスチャ解析と合成に関する過去の研究は, 異なるテクスチャが全く異なる動作特性を示し, 3つのクラス(静的, 動的連続, 動的離散)に分けられることを示した。
本研究では,映像テクスチャーが映像フレーム補間に与える影響について検討し,補間アルゴリズムを付与し,異なるテクスチャーに対して別々のモデルを訓練する新しい枠組みを提案する。
本研究は,映像テクスチャがフレーム補間モデルの性能に有意な影響を与えていることを示し,汎用的な動作を学習する単一モデルを訓練する代わりに,これらのテクスチャクラスに特化して個別のモデルを持つことが有用である。
実験結果から,本フレームワークを用いて微調整したモデルでは,PSNRが平均0.3dB向上することがわかった。
関連論文リスト
- Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。