論文の概要: Explorative Inbetweening of Time and Space
- arxiv url: http://arxiv.org/abs/2403.14611v1
- Date: Thu, 21 Mar 2024 17:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:00:31.972203
- Title: Explorative Inbetweening of Time and Space
- Title(参考訳): 時間と空間の相互関係の探索
- Authors: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang,
- Abstract要約: 与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
- 参考スコア(独自算出の注目度): 46.77750028273578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.
- Abstract(参考訳): 任意のカメラと被写体の動きを、所定の開始フレームと終了フレームのみに基づいて合成するために、映像生成を制御するための一般化タスクとして有界生成を導入する。
我々の目的は、オリジナルモデルの訓練や微調整を伴わずに、画像から映像へのモデル固有の一般化能力をフル活用することである。
これは、タイム・リバーサル・フュージョン(Time Reversal Fusion)と呼ばれる新しいサンプリング戦略によって実現される。
融合された経路は、2つのフレームを円滑に接続し、忠実な被写体運動、新しい静的シーンのビュー、そして2つのバウンディングフレームが同一であるときにシームレスなビデオループを生成する。
画像ペアの多様な評価データセットをキュレートし、既存の手法と比較する。
その結果,Time Reversal Fusionはすべてのサブタスクの関連作業よりも優れており,複雑な動きを発生させる能力と,境界フレームでガイドされる3D一貫性のビューが示されることがわかった。
プロジェクトページはhttps://time-reversal.github.ioにある。
関連論文リスト
- SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。