Fugu-MT 論文翻訳(概要): Generative Inbetweening through Frame-wise Conditions-Driven Video Generation

論文の概要: Generative Inbetweening through Frame-wise Conditions-Driven Video Generation

arxiv url: http://arxiv.org/abs/2412.11755v1
Date: Mon, 16 Dec 2024 13:19:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.392204
Title: Generative Inbetweening through Frame-wise Conditions-Driven Video Generation
Title（参考訳）: フレームワイド・コンディション駆動ビデオ生成による生成的インベントリ
Authors: Tianyi Zhu, Dongwei Ren, Qilong Wang, Xiaohe Wu, Wangmeng Zuo,
Abstract要約: 生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。 FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
参考スコア（独自算出の注目度）: 63.43583844248389
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative inbetweening aims to generate intermediate frame sequences by utilizing two key frames as input. Although remarkable progress has been made in video generation models, generative inbetweening still faces challenges in maintaining temporal stability due to the ambiguous interpolation path between two key frames. This issue becomes particularly severe when there is a large motion gap between input frames. In this paper, we propose a straightforward yet highly effective Frame-wise Conditions-driven Video Generation (FCVG) method that significantly enhances the temporal stability of interpolated video frames. Specifically, our FCVG provides an explicit condition for each frame, making it much easier to identify the interpolation path between two input frames and thus ensuring temporally stable production of visually plausible video frames. To achieve this, we suggest extracting matched lines from two input frames that can then be easily interpolated frame by frame, serving as frame-wise conditions seamlessly integrated into existing video generation models. In extensive evaluations covering diverse scenarios such as natural landscapes, complex human poses, camera movements and animations, existing methods often exhibit incoherent transitions across frames. In contrast, our FCVG demonstrates the capability to generate temporally stable videos using both linear and non-linear interpolation curves. Our project page and code are available at \url{https://fcvg-inbetween.github.io/}.
Abstract（参考訳）: Generative inbetweeningは、2つのキーフレームを入力として利用して中間フレームシーケンスを生成することを目的としている。ビデオ生成モデルでは顕著な進歩があったが、2つのキーフレーム間のあいまいな補間経路のため、生成的インテタイニングは時間的安定性を維持する上で依然として課題に直面している。この問題は、入力フレーム間に大きな動きギャップがある場合、特に深刻になる。本稿では、補間されたビデオフレームの時間的安定性を大幅に向上させる、単純かつ高効率なフレームワイド・コンディション駆動ビデオ生成法を提案する。具体的には、FCVGは、各フレームに対して明示的な条件を提供し、2つの入力フレーム間の補間パスを識別し、視覚的に可視なビデオフレームの時間的安定な生成を確実にする。これを実現するために,既存の映像生成モデルにシームレスに統合されたフレームワイド条件として,フレームによって容易に補間できる2つの入力フレームから一致した線を抽出することを提案する。自然の風景、複雑な人間のポーズ、カメラの動き、アニメーションなど、様々なシナリオをカバーする広範囲な評価において、既存の手法はフレーム間の不整合性遷移を示すことが多い。対照的に、FCVGは線形および非線形の補間曲線を用いて時間的に安定なビデオを生成する能力を示した。プロジェクトページとコードは \url{https://fcvg-inbetween.github.io/} で公開しています。

関連論文リスト

LumosFlow: Motion-Guided Long Video Generation [31.63126037070182]
エンターテイメントやシミュレーションなどの分野で広く利用されていることから、長いビデオ生成が注目を集めている。我々は階層的な長いビデオ生成パイプラインを再考し、モーションガイダンスを明示的に導入するフレームワークであるLumosFlowを紹介した。従来のビデオフレームと比較して、15倍の精度で、隣接するフレーム間の合理的かつ連続的な動きを保証します。
論文参考訳（メタデータ） (2025-06-03T06:25:00Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)
Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文参考訳（メタデータ） (2022-12-14T18:54:13Z)
TTVFI: Learning Trajectory-Aware Transformer for Video Frame Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2022-07-19T03:37:49Z)
Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文参考訳（メタデータ） (2021-12-02T12:13:56Z)
TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文参考訳（メタデータ） (2021-06-14T10:33:47Z)
ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2020-08-31T21:11:53Z)
Deep Sketch-guided Cartoon Video Inbetweening [24.00033622396297]
本研究では,ユーザスケッチに案内されたアニメーションの動きに追従しながら,2つの入力から色情報を取得することで,マンガ映像を生成するフレームワークを提案する。フレームとスケッチの対応性を明示的に考慮することにより,他の画像合成法よりも高品質な結果が得られる。
論文参考訳（メタデータ） (2020-08-10T14:22:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。