論文の概要: Sequence-Adaptive Video Prediction in Continuous Streams using Diffusion Noise Optimization
- arxiv url: http://arxiv.org/abs/2511.18255v1
- Date: Sun, 23 Nov 2025 02:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.724425
- Title: Sequence-Adaptive Video Prediction in Continuous Streams using Diffusion Noise Optimization
- Title(参考訳): 拡散雑音最適化を用いた連続流中の系列適応映像予測
- Authors: Sina Mokhtarzadeh Azar, Emad Bahrami, Enrico Pallotta, Gianpiero Francesca, Radu Timofte, Juergen Gall,
- Abstract要約: 本稿では,事前学習した拡散モデルをビデオストリームに継続的に適応させる手法を提案する。
拡散雑音最適化(SAVi-DNO)を用いた逐次適応映像予測手法について
実験により,Ego4DとOpenDV-YouTubeの長いビデオ上でのFVD,SSIM,PSNR測定値に基づく性能向上が実証された。
- 参考スコア(独自算出の注目度): 63.37868191173104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate diffusion-based video prediction models, which forecast future video frames, for continuous video streams. In this context, the models observe continuously new training samples, and we aim to leverage this to improve their predictions. We thus propose an approach that continuously adapts a pre-trained diffusion model to a video stream. Since fine-tuning the parameters of a large diffusion model is too expensive, we refine the diffusion noise during inference while keeping the model parameters frozen, allowing the model to adaptively determine suitable sampling noise. We term the approach Sequence Adaptive Video Prediction with Diffusion Noise Optimization (SAVi-DNO). To validate our approach, we introduce a new evaluation setting on the Ego4D dataset, focusing on simultaneous adaptation and evaluation on long continuous videos. Empirical results demonstrate improved performance based on FVD, SSIM, and PSNR metrics on long videos of Ego4D and OpenDV-YouTube, as well as videos of UCF-101 and SkyTimelapse, showcasing SAVi-DNO's effectiveness.
- Abstract(参考訳): 本研究では,拡散に基づく映像予測モデルについて検討し,将来の映像フレームを予測し,連続的な映像ストリームの予測を行う。
この文脈で、モデルは新しいトレーニングサンプルを継続的に観察し、これを活用して予測を改善することを目指している。
そこで本稿では,事前学習した拡散モデルをビデオストリームに継続的に適応させる手法を提案する。
大きな拡散モデルのパラメータを微調整するには高すぎるため、モデルパラメータを凍結させながら推論中の拡散ノイズを洗練し、適切なサンプリングノイズを適応的に決定することができる。
本稿では,拡散雑音最適化 (SAVi-DNO) を用いた逐次適応映像予測手法を提案する。
提案手法の有効性を検証するため,Ego4Dデータセット上での新たな評価設定を導入し,長期連続ビデオの同時適応と評価に着目した。
Ego4DとOpenDV-YouTubeの長いビデオやUCF-101とSkyTimelapseのビデオでは、FVD、SSIM、PSNRのメトリクスに基づくパフォーマンスが向上し、SAVi-DNOの有効性が示された。
関連論文リスト
- FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Diffusion Probabilistic Modeling for Video Generation [17.48026395867434]
拡散確率モデルは、知覚メトリクス上のGANと競合する新しい生成モデルである。
ニューラルビデオ圧縮の最近の進歩にインスパイアされた我々は、デノナイジング拡散モデルを使用して、決定論的次フレーム予測に残留するベースラインを生成する。
複雑な高解像度ビデオのフレーム予測において,すべてのデータに対する知覚的品質の面での大幅な改善と,その改善が期待できる。
論文 参考訳(メタデータ) (2022-03-16T03:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。