論文の概要: Video Consistency Distance: Enhancing Temporal Consistency for Image-to-Video Generation via Reward-Based Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.19193v2
- Date: Thu, 23 Oct 2025 07:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.941249
- Title: Video Consistency Distance: Enhancing Temporal Consistency for Image-to-Video Generation via Reward-Based Fine-Tuning
- Title(参考訳): 映像整合性距離:逆ベースファインチューニングによる映像対映像生成のための時間整合性向上
- Authors: Takehiro Aoshima, Yusuke Shinohara, Byeongseon Park,
- Abstract要約: ビデオ拡散モデルの逆ベース微調整は、生成ビデオの品質向上に有効な手法である。
本稿では,時間的一貫性を高めるために,ビデオ一貫性距離(VCD, Video Consistency Distance)を提案する。
- 参考スコア(独自算出の注目度): 5.847416016271551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward-based fine-tuning of video diffusion models is an effective approach to improve the quality of generated videos, as it can fine-tune models without requiring real-world video datasets. However, it can sometimes be limited to specific performances because conventional reward functions are mainly aimed at enhancing the quality across the whole generated video sequence, such as aesthetic appeal and overall consistency. Notably, the temporal consistency of the generated video often suffers when applying previous approaches to image-to-video (I2V) generation tasks. To address this limitation, we propose Video Consistency Distance (VCD), a novel metric designed to enhance temporal consistency, and fine-tune a model with the reward-based fine-tuning framework. To achieve coherent temporal consistency relative to a conditioning image, VCD is defined in the frequency space of video frame features to capture frame information effectively through frequency-domain analysis. Experimental results across multiple I2V datasets demonstrate that fine-tuning a video generation model with VCD significantly enhances temporal consistency without degrading other performance compared to the previous method.
- Abstract(参考訳): 逆ベースによるビデオ拡散モデルの微調整は、実世界のビデオデータセットを必要とせずにモデルを微調整できるため、生成されたビデオの品質を改善する効果的なアプローチである。
しかし、従来の報酬関数は主に、美的魅力や全体的な一貫性など、生成されたビデオシーケンス全体の品質向上を目的としているため、特定のパフォーマンスに制限される場合もある。
特に、生成されたビデオの時間的一貫性は、イメージ・ツー・ビデオ(I2V)生成タスクに以前のアプローチを適用する際にしばしば悩まされる。
この制限に対処するために,時間的整合性を高め,報酬に基づく微調整フレームワークでモデルを微調整する新しい尺度であるVCD(Video Consistency Distance)を提案する。
コンディショニング画像に対するコヒーレント時間一貫性を実現するため、VCDはビデオフレーム特徴の周波数空間内で定義され、周波数領域解析によりフレーム情報を効果的にキャプチャする。
複数のI2Vデータセットにまたがる実験結果から,VCDを用いたビデオ生成モデルの微調整により,従来手法と比較して他の性能を劣化させることなく,時間的一貫性が著しく向上することが示された。
関連論文リスト
- Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context [8.458436768725212]
ビデオオートエンコーダは、ビデオをコンパクトな潜在表現に圧縮して効率的な再構成を行う。
自動回帰ビデオオートエンコーダ(ARVAE)を提案する。
ARVAEは、非常に軽量なモデルと小規模のトレーニングデータにより、優れた再構築品質を実現する。
論文 参考訳(メタデータ) (2025-12-12T05:40:01Z) - STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution [60.06664986365803]
我々は,事前学習したビデオ拡散モデルに基づいて構築されたビデオ超解像フレームワークSTCDiTを提案する。
複雑なカメラの動きであっても、構造的に忠実で時間的に安定した動画を劣化した入力から復元することを目的としている。
論文 参考訳(メタデータ) (2025-11-24T05:37:23Z) - STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing [35.50656689789427]
STR-Matchは、視覚的に魅力的なコヒーレントなビデオを生成するトレーニングフリーのビデオ編集システムである。
STR-Matchは、視覚的品質と時間的一貫性の両方において、既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-06-28T12:36:19Z) - Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。
我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。
実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文 参考訳(メタデータ) (2024-10-04T05:47:39Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-06-08T09:00:31Z) - Capturing Video Frame Rate Variations via Entropic Differencing [63.749184706461826]
一般化ガウス分布モデルに基づく新しい統計エントロピー差分法を提案する。
提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関する。
論文 参考訳(メタデータ) (2020-06-19T22:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。