論文の概要: STeP: A Framework for Solving Scientific Video Inverse Problems with Spatiotemporal Diffusion Priors
- arxiv url: http://arxiv.org/abs/2504.07549v2
- Date: Tue, 10 Jun 2025 01:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 19:51:30.164378
- Title: STeP: A Framework for Solving Scientific Video Inverse Problems with Spatiotemporal Diffusion Priors
- Title(参考訳): STeP:時空間拡散を前提とした科学的ビデオ逆問題解決フレームワーク
- Authors: Bingliang Zhang, Zihui Wu, Berthy T. Feng, Yang Song, Yisong Yue, Katherine L. Bouman,
- Abstract要約: 既存の拡散に基づく手法は、測定から直接時間的一貫性を抽出することに依存している。
学習時間拡散を前もって組み込んだプラグアンドプレイフレームワークを提案する。
本研究では,時間的拡散モデルを限られたビデオデータで効率的に訓練できることを実証する。
- 参考スコア(独自算出の注目度): 27.45644471304381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing spatially and temporally coherent videos from time-varying measurements is a fundamental challenge in many scientific domains. A major difficulty arises from the sparsity of measurements, which hinders accurate recovery of temporal dynamics. Existing image diffusion-based methods rely on extracting temporal consistency directly from measurements, limiting their effectiveness on scientific tasks with high spatiotemporal uncertainty. We address this difficulty by proposing a plug-and-play framework that incorporates a learned spatiotemporal diffusion prior. Due to its plug-and-play nature, our framework can be flexibly applied to different video inverse problems without the need for task-specific design and temporal heuristics. We further demonstrate that a spatiotemporal diffusion model can be trained efficiently with limited video data. We validate our approach on two challenging scientific video reconstruction tasks: black hole video reconstruction and dynamic MRI. While baseline methods struggle to provide temporally coherent reconstructions, our approach achieves significantly improved recovery of the spatiotemporal structure of the underlying ground truth videos.
- Abstract(参考訳): 時間変化の測定から空間的・時間的にコヒーレントな映像を再構成することは、多くの科学的領域において根本的な課題である。
大きな困難は、時間的ダイナミクスの正確な回復を妨げる測定の空間性から生じる。
既存の画像拡散に基づく手法は、測定から時間的一貫性を直接抽出することに依存しており、時空間不確実性が高い科学的タスクに対する効果を制限している。
学習した時空間拡散を前もって組み込んだプラグアンドプレイフレームワークを提案することで,この問題に対処する。
そのプラグ・アンド・プレイの性質により、我々のフレームワークはタスク固有の設計や時間的ヒューリスティックを必要とせずに、様々なビデオ逆問題に柔軟に適用できる。
さらに,ビデオデータに制限のある時空間拡散モデルを効率的に訓練できることを実証した。
我々は,ブラックホールビデオ再構成と動的MRIの2つの課題に対して,我々のアプローチを検証した。
ベースライン手法は時間的コヒーレントな再構成を行うのに苦労するが,本手法は基礎となる真理ビデオの時空間構造の回復を著しく改善する。
関連論文リスト
- Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - DIVD: Deblurring with Improved Video Diffusion Model [8.816046910904488]
拡散モデルとビデオ拡散モデルは、画像生成やビデオ生成の分野で優れている。
本稿では,ビデオデブロアリングに特化してビデオ拡散モデルを提案する。
我々のモデルは既存のモデルより優れており、様々な知覚的指標について最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-01T11:39:02Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models [56.691967706131]
我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。
この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。
本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
論文 参考訳(メタデータ) (2024-10-21T16:19:34Z) - A Survey on Diffusion Models for Inverse Problems [110.6628926886398]
本稿では, 事前学習した拡散モデルを用いて, さらなる学習を必要とせず, 逆問題の解法について概説する。
逆問題に対する潜伏拡散モデルの使用に伴う具体的な課題と潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2024-09-30T17:34:01Z) - Ensemble Kalman Diffusion Guidance: A Derivative-free Method for Inverse Problems [21.95946380639509]
逆問題では、プラグ・アンド・プレイの先行として事前学習した拡散モデルを使うことが一般的である。
既存のほとんどの手法は、デリバティブ、擬似逆数、フォワードモデルに関する完全な知識といった特権情報に依存している。
本稿では,拡散モデルに対するEnsemble Kalman Diffusion Guidance(EnKG)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:36:41Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Solving Inverse Problems with Latent Diffusion Models via Hard Data Consistency [7.671153315762146]
画素空間におけるトレーニング拡散モデルは、データ集約的かつ計算的に要求される。
非常に低次元空間で動作する潜在拡散モデルは、これらの課題に対する解決策を提供する。
我々は,事前学習した潜在拡散モデルを用いて,一般的な逆問題を解決するアルゴリズムであるtextitReSampleを提案する。
論文 参考訳(メタデータ) (2023-07-16T18:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。