論文の概要: Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.09229v1
- Date: Tue, 10 Jun 2025 20:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.077378
- Title: Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models
- Title(参考訳): 微調整ビデオ拡散モデルのためのクロスフレーム表現アライメント
- Authors: Sungwon Hwang, Hyojin Jang, Kinam Kim, Minho Park, Jaegul choo,
- Abstract要約: ビデオ拡散モデル(VDM)は、トレーニングデータの特定の属性を反映したビデオを生成する。
Representation Alignment (REPA)のような最近の研究は、DiTベースの画像拡散モデルの収束と品質を改善することを約束している。
フレームの隠れ状態と隣接するフレームの外部特徴を整列する新しい正規化手法であるCross-frame Representation Alignment(CREPA)を導入する。
- 参考スコア(独自算出の注目度): 31.138079872368532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Video Diffusion Models (VDMs) at the user level to generate videos that reflect specific attributes of training data presents notable challenges, yet remains underexplored despite its practical importance. Meanwhile, recent work such as Representation Alignment (REPA) has shown promise in improving the convergence and quality of DiT-based image diffusion models by aligning, or assimilating, its internal hidden states with external pretrained visual features, suggesting its potential for VDM fine-tuning. In this work, we first propose a straightforward adaptation of REPA for VDMs and empirically show that, while effective for convergence, it is suboptimal in preserving semantic consistency across frames. To address this limitation, we introduce Cross-frame Representation Alignment (CREPA), a novel regularization technique that aligns hidden states of a frame with external features from neighboring frames. Empirical evaluations on large-scale VDMs, including CogVideoX-5B and Hunyuan Video, demonstrate that CREPA improves both visual fidelity and cross-frame semantic coherence when fine-tuned with parameter-efficient methods such as LoRA. We further validate CREPA across diverse datasets with varying attributes, confirming its broad applicability. Project page: https://crepavideo.github.io
- Abstract(参考訳): トレーニングデータの特定の属性を反映したビデオを生成するためのユーザレベルでの微調整ビデオ拡散モデル(VDM)は、顕著な課題を呈するが、その実用的重要性にもかかわらず未探索のままである。
一方、Representation Alignment (REPA) のような最近の研究は、内部の隠れ状態と事前訓練された視覚的特徴の整合や同化によって、DiTベースの画像拡散モデルの収束と品質を改善することを約束しており、VDMの微調整の可能性を示している。
本稿ではまず, VDMに対するREPAの直接的な適応を提案し, 収束に有効であるにもかかわらず, フレーム間のセマンティック一貫性の維持に最適であることを示す。
この制限に対処するために、フレームの隠れ状態と隣接するフレームの外部特徴を整列する新しい正規化手法であるCross-frame Representation Alignment (CREPA)を導入する。
CogVideoX-5B や Hunyuan Video などの大規模 VDM に関する実証的な評価は,LORA などのパラメータ効率の高い手法を微調整した場合,CREPA が視覚的忠実度とフレーム間セマンティックコヒーレンスを改善することを実証している。
さらに、さまざまな属性を持つ多様なデータセットにまたがってCREPAを検証し、その適用性を確認します。
プロジェクトページ: https://crepavideo.github.io
関連論文リスト
- DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor [22.35724335601674]
映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
我々は、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する新しいVQAフレームワークDiffVQAを紹介する。
論文 参考訳(メタデータ) (2025-05-06T07:42:24Z) - Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。