論文の概要: FrameBridge: Improving Image-to-Video Generation with Bridge Models
- arxiv url: http://arxiv.org/abs/2410.15371v2
- Date: Mon, 16 Jun 2025 07:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:28.702524
- Title: FrameBridge: Improving Image-to-Video Generation with Bridge Models
- Title(参考訳): FrameBridge: ブリッジモデルによる画像間生成の改善
- Authors: Yuji Wang, Zehua Chen, Xiaoyu Chen, Yixiang Wei, Jun Zhu, Jianfei Chen,
- Abstract要約: 拡散モデルは画像間(I2V)生成において顕著な進歩を遂げた。
彼らのノイズ・ツー・データ生成プロセスは、本質的にこのタスクと一致していないため、最適下合成の品質につながる可能性がある。
フレーム・ツー・フレーム生成過程をブリッジモデルに基づくデータ・ツー・データ生成プロセスでモデル化することにより、与えられた画像に含まれる情報を完全に活用することができる。
- 参考スコア(独自算出の注目度): 21.888786343816875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable progress on image-to-video (I2V) generation, while their noise-to-data generation process is inherently mismatched with this task, which may lead to suboptimal synthesis quality. In this work, we present FrameBridge. By modeling the frame-to-frames generation process with a bridge model based data-to-data generative process, we are able to fully exploit the information contained in the given image and improve the consistency between the generation process and I2V task. Moreover, we propose two novel techniques toward the two popular settings of training I2V models, respectively. Firstly, we propose SNR-Aligned Fine-tuning (SAF), making the first attempt to fine-tune a diffusion model to a bridge model and, therefore, allowing us to utilize the pre-trained diffusion-based text-to-video (T2V) models. Secondly, we propose neural prior, further improving the synthesis quality of FrameBridge when training from scratch. Experiments conducted on WebVid-2M and UCF-101 demonstrate the superior quality of FrameBridge in comparison with the diffusion counterpart (zero-shot FVD 95 vs. 192 on MSR-VTT and non-zero-shot FVD 122 vs. 171 on UCF-101), and the advantages of our proposed SAF and neural prior for bridge-based I2V models. The project page: https://framebridge-icml.github.io/.
- Abstract(参考訳): 拡散モデルは、画像から映像へ(I2V)生成において顕著な進歩を遂げているが、そのノイズからデータへの生成プロセスは本質的にこのタスクと一致していないため、最適下合成の品質につながる可能性がある。
本稿では,FrameBridgeについて紹介する。
フレーム・ツー・フレーム生成過程をブリッジモデルに基づくデータ・ツー・データ生成プロセスでモデル化することにより、与えられた画像に含まれる情報を完全に活用し、生成プロセスとI2Vタスク間の一貫性を向上させることができる。
さらに,2種類のI2Vモデルをトレーニングするための2つの新しい手法を提案する。
まず,SNR-Aligned Fine-tuning (SAF)を提案し,橋梁モデルに拡散モデルを微調整する試みを行った。
第2に、スクラッチからトレーニングする際のFrameBridgeの合成品質をさらに向上する神経前駆体を提案する。
WebVid-2MとUCF-101で行った実験は、拡散相手と比較してFrameBridgeの優れた品質(MSR-VTTでゼロショットFVD 95対192、UCF-101でゼロショットFVD 122対171)を示し、橋梁ベースI2Vモデルで提案したSAFとニューラル先行の利点を示した。
プロジェクトページ:https://framebridge-icml.github.io/。
関連論文リスト
- Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction [36.82594554832902]
テキストビデオ予測(英: text-video prediction、TVP)は、後続のビデオフレームを生成するモデルを必要とする下流のビデオ生成タスクである。
フレームワイドコンディショニング適応 (FCA) をラベル付けした適応型戦略を提案する。
我々は、初期フレームを余剰条件として組み込んだT2Vモデルを微調整するためにFCAを使用する。
論文 参考訳(メタデータ) (2025-03-17T09:06:21Z) - STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models [40.38379402600541]
TI2V-Zeroは、予め訓練されたテキスト・ツー・ビデオ(T2V)拡散モデルを、提供される画像に条件付けることができるゼロショット・チューニングフリーの手法である。
付加的な画像入力で映像生成を誘導するために,逆復調過程を変調する「繰り返しスライド」戦略を提案する。
TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-25T03:21:11Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。