論文の概要: STeP: A General and Scalable Framework for Solving Video Inverse Problems with Spatiotemporal Diffusion Priors
- arxiv url: http://arxiv.org/abs/2504.07549v1
- Date: Thu, 10 Apr 2025 08:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:49.785774
- Title: STeP: A General and Scalable Framework for Solving Video Inverse Problems with Spatiotemporal Diffusion Priors
- Title(参考訳): STeP:時空間拡散前処理によるビデオ逆問題解決のための汎用的でスケーラブルなフレームワーク
- Authors: Bingliang Zhang, Zihui Wu, Berthy T. Feng, Yang Song, Yisong Yue, Katherine L. Bouman,
- Abstract要約: 本研究では,拡散モデルを用いたビデオにおける一般的な逆問題の解法について検討する。
ビデオ逆問題を解決するための汎用的でスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.45644471304381
- License:
- Abstract: We study how to solve general Bayesian inverse problems involving videos using diffusion model priors. While it is desirable to use a video diffusion prior to effectively capture complex temporal relationships, due to the computational and data requirements of training such a model, prior work has instead relied on image diffusion priors on single frames combined with heuristics to enforce temporal consistency. However, these approaches struggle with faithfully recovering the underlying temporal relationships, particularly for tasks with high temporal uncertainty. In this paper, we demonstrate the feasibility of practical and accessible spatiotemporal diffusion priors by fine-tuning latent video diffusion models from pretrained image diffusion models using limited videos in specific domains. Leveraging this plug-and-play spatiotemporal diffusion prior, we introduce a general and scalable framework for solving video inverse problems. We then apply our framework to two challenging scientific video inverse problems--black hole imaging and dynamic MRI. Our framework enables the generation of diverse, high-fidelity video reconstructions that not only fit observations but also recover multi-modal solutions. By incorporating a spatiotemporal diffusion prior, we significantly improve our ability to capture complex temporal relationships in the data while also enhancing spatial fidelity.
- Abstract(参考訳): 本研究では,拡散モデルを用いたビデオを含む一般ベイズ逆問題の解法について検討する。
複雑な時間的関係を効果的にとらえるためには、ビデオ拡散を利用するのが望ましいが、そのようなモデルを訓練する際の計算とデータ要求のため、事前の作業は、時間的一貫性を強制するためにヒューリスティックと組み合わせた単一のフレーム上の画像拡散に頼っている。
しかし、これらのアプローチは、特に時間的不確実性の高いタスクにおいて、基礎となる時間的関係を忠実に回復するのに苦労する。
本稿では,特定の領域における制限ビデオを用いた予め訓練された画像拡散モデルから,ビデオ拡散モデルを微調整することで,実用的でアクセス可能な時空間拡散モデルの実現可能性を示す。
このプラグアンドプレイ時空間拡散を利用して、ビデオ逆問題を解決するための汎用的でスケーラブルなフレームワークを導入する。
次に、我々のフレームワークを、2つの挑戦的な科学的ビデオ逆問題(ブラックホールイメージングとダイナミックMRI)に適用する。
我々のフレームワークは、観察に適合するだけでなく、マルチモーダル・ソリューションを復元する多種多様な高忠実度ビデオ再構成を可能にする。
時空間拡散を前もって導入することにより,空間的忠実度を高めつつ,データ中の複雑な時間的関係を捉える能力を大幅に向上する。
関連論文リスト
- DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - DIVD: Deblurring with Improved Video Diffusion Model [8.816046910904488]
拡散モデルとビデオ拡散モデルは、画像生成やビデオ生成の分野で優れている。
本稿では,ビデオデブロアリングに特化してビデオ拡散モデルを提案する。
我々のモデルは既存のモデルより優れており、様々な知覚的指標について最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-01T11:39:02Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models [56.691967706131]
我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。
この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。
本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
論文 参考訳(メタデータ) (2024-10-21T16:19:34Z) - A Survey on Diffusion Models for Inverse Problems [110.6628926886398]
本稿では, 事前学習した拡散モデルを用いて, さらなる学習を必要とせず, 逆問題の解法について概説する。
逆問題に対する潜伏拡散モデルの使用に伴う具体的な課題と潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2024-09-30T17:34:01Z) - Ensemble Kalman Diffusion Guidance: A Derivative-free Method for Inverse Problems [21.95946380639509]
逆問題では、プラグ・アンド・プレイの先行として事前学習した拡散モデルを使うことが一般的である。
既存のほとんどの手法は、デリバティブ、擬似逆数、フォワードモデルに関する完全な知識といった特権情報に依存している。
本稿では,拡散モデルに対するEnsemble Kalman Diffusion Guidance(EnKG)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:36:41Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Solving Inverse Problems with Latent Diffusion Models via Hard Data Consistency [7.671153315762146]
画素空間におけるトレーニング拡散モデルは、データ集約的かつ計算的に要求される。
非常に低次元空間で動作する潜在拡散モデルは、これらの課題に対する解決策を提供する。
我々は,事前学習した潜在拡散モデルを用いて,一般的な逆問題を解決するアルゴリズムであるtextitReSampleを提案する。
論文 参考訳(メタデータ) (2023-07-16T18:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。