論文の概要: ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation
- arxiv url: http://arxiv.org/abs/2603.17812v1
- Date: Wed, 18 Mar 2026 15:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.771955
- Title: ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation
- Title(参考訳): ChopGrad: 縮小バックプロパゲーションによる遅延ビデオ拡散のための画素幅損失
- Authors: Dmitriy Rivkin, Parker Ewen, Lili Gao, Julian Ost, Stefanie Walz, Rasika Kangutkar, Mario Bijelic, Felix Heide,
- Abstract要約: 本稿では,ChopGradについて紹介する。ChopGradはビデオ復号化のための切り離されたバックプロパゲーション方式で,グローバルな一貫性を維持しつつ,ローカルフレームウインドウへの勾配を制限している。
本稿では, この近似の理論的解析を行い, フレーム単位の損失で効率的な微調整を可能にすることを示す。
- 参考スコア(独自算出の注目度): 33.672422379245766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video diffusion models achieve high-quality generation through recurrent frame processing where each frame generation depends on previous frames. However, this recurrent mechanism means that training such models in the pixel domain incurs prohibitive memory costs, as activations accumulate across the entire video sequence. This fundamental limitation also makes fine-tuning these models with pixel-wise losses computationally intractable for long or high-resolution videos. This paper introduces ChopGrad, a truncated backpropagation scheme for video decoding, limiting gradient computation to local frame windows while maintaining global consistency. We provide a theoretical analysis of this approximation and show that it enables efficient fine-tuning with frame-wise losses. ChopGrad reduces training memory from scaling linearly with the number of video frames (full backpropagation) to constant memory, and compares favorably to existing state-of-the-art video diffusion models across a suite of conditional video generation tasks with pixel-wise losses, including video super-resolution, video inpainting, video enhancement of neural-rendered scenes, and controlled driving video generation.
- Abstract(参考訳): 近年の映像拡散モデルでは,各フレーム生成が以前のフレームに依存した繰り返しフレーム処理により高品質な生成を実現する。
しかし、このリカレントメカニズムは、このようなモデルをピクセル領域でトレーニングすることで、ビデオシーケンス全体にわたってアクティベーションが蓄積されるため、禁止的なメモリコストが発生することを意味する。
この基本的な制限は、長大または高解像度のビデオに対して、ピクセル単位の損失でこれらのモデルを微調整することを可能にする。
本稿では,ChopGradについて紹介する。ChopGradはビデオデコードのための切り離されたバックプロパゲーション方式で,グローバルな一貫性を維持しつつ,局所的なフレームウィンドウに勾配計算を限定する。
本稿では, この近似の理論的解析を行い, フレーム単位の損失で効率的な微調整を可能にすることを示す。
ChopGradは、トレーニングメモリを、ビデオフレームの数(フルバックプロパゲーション)を一定メモリに線形にスケーリングすることから、一連の条件付きビデオ生成タスクにおける既存の最先端のビデオ拡散モデルと比較し、ビデオスーパーレゾリューション、ビデオインペインティング、ニューラルレンダリングされたシーンのビデオ強化、制御された駆動ビデオ生成など、ピクセル単位の損失で好適に比較する。
関連論文リスト
- Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models [63.99949971803903]
ビデオ生成のための次フレーム(または次フレーム)予測モデルをトレーニングするためのニューラルネットワーク構造であるFramePackを提案する。
FramePackは入力フレームコンテキストをフレーム単位の重要度で圧縮し、より多くのフレームを固定されたコンテキスト長内にエンコードする。
既存のビデオ拡散モデルをFramePackで微調整できることを示し、異なるパッキングスケジュールの違いを分析する。
論文 参考訳(メタデータ) (2025-04-17T04:02:31Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。