論文の概要: Video Consistency Distance: Enhancing Temporal Consistency for Image-to-Video Generation via Reward-Based Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.19193v2
- Date: Thu, 23 Oct 2025 07:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.941249
- Title: Video Consistency Distance: Enhancing Temporal Consistency for Image-to-Video Generation via Reward-Based Fine-Tuning
- Title(参考訳): 映像整合性距離:逆ベースファインチューニングによる映像対映像生成のための時間整合性向上
- Authors: Takehiro Aoshima, Yusuke Shinohara, Byeongseon Park,
- Abstract要約: ビデオ拡散モデルの逆ベース微調整は、生成ビデオの品質向上に有効な手法である。
本稿では,時間的一貫性を高めるために,ビデオ一貫性距離(VCD, Video Consistency Distance)を提案する。
- 参考スコア(独自算出の注目度): 5.847416016271551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward-based fine-tuning of video diffusion models is an effective approach to improve the quality of generated videos, as it can fine-tune models without requiring real-world video datasets. However, it can sometimes be limited to specific performances because conventional reward functions are mainly aimed at enhancing the quality across the whole generated video sequence, such as aesthetic appeal and overall consistency. Notably, the temporal consistency of the generated video often suffers when applying previous approaches to image-to-video (I2V) generation tasks. To address this limitation, we propose Video Consistency Distance (VCD), a novel metric designed to enhance temporal consistency, and fine-tune a model with the reward-based fine-tuning framework. To achieve coherent temporal consistency relative to a conditioning image, VCD is defined in the frequency space of video frame features to capture frame information effectively through frequency-domain analysis. Experimental results across multiple I2V datasets demonstrate that fine-tuning a video generation model with VCD significantly enhances temporal consistency without degrading other performance compared to the previous method.
- Abstract(参考訳): 逆ベースによるビデオ拡散モデルの微調整は、実世界のビデオデータセットを必要とせずにモデルを微調整できるため、生成されたビデオの品質を改善する効果的なアプローチである。
しかし、従来の報酬関数は主に、美的魅力や全体的な一貫性など、生成されたビデオシーケンス全体の品質向上を目的としているため、特定のパフォーマンスに制限される場合もある。
特に、生成されたビデオの時間的一貫性は、イメージ・ツー・ビデオ(I2V)生成タスクに以前のアプローチを適用する際にしばしば悩まされる。
この制限に対処するために,時間的整合性を高め,報酬に基づく微調整フレームワークでモデルを微調整する新しい尺度であるVCD(Video Consistency Distance)を提案する。
コンディショニング画像に対するコヒーレント時間一貫性を実現するため、VCDはビデオフレーム特徴の周波数空間内で定義され、周波数領域解析によりフレーム情報を効果的にキャプチャする。
複数のI2Vデータセットにまたがる実験結果から,VCDを用いたビデオ生成モデルの微調整により,従来手法と比較して他の性能を劣化させることなく,時間的一貫性が著しく向上することが示された。
関連論文リスト
- LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-06-08T09:00:31Z) - Capturing Video Frame Rate Variations via Entropic Differencing [63.749184706461826]
一般化ガウス分布モデルに基づく新しい統計エントロピー差分法を提案する。
提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関する。
論文 参考訳(メタデータ) (2020-06-19T22:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。