論文の概要: Generating the Past, Present and Future from a Motion-Blurred Image
- arxiv url: http://arxiv.org/abs/2512.19817v1
- Date: Mon, 22 Dec 2025 19:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.646316
- Title: Generating the Past, Present and Future from a Motion-Blurred Image
- Title(参考訳): モーションブラインド画像から過去・現在・未来を生成する
- Authors: SaiKiran Tedla, Kelly Zhu, Trevor Canham, Felix Taubner, Michael S. Brown, Kiriakos N. Kutulakos, David B. Lindell,
- Abstract要約: 動きは画像の詳細を曖昧にし、視覚的品質を低下させる。
また、露出中のシーンやカメラの動きに関する情報もエンコードする。
従来の手法では、この情報を利用して入力のぼやけた画像からシャープな画像を推定する。
我々は,インターネット規模のデータセットに基づいてトレーニングされたビデオ拡散モデルを再利用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 26.99995751817043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We seek to answer the question: what can a motion-blurred image reveal about a scene's past, present, and future? Although motion blur obscures image details and degrades visual quality, it also encodes information about scene and camera motion during an exposure. Previous techniques leverage this information to estimate a sharp image from an input blurry one, or to predict a sequence of video frames showing what might have occurred at the moment of image capture. However, they rely on handcrafted priors or network architectures to resolve ambiguities in this inverse problem, and do not incorporate image and video priors on large-scale datasets. As such, existing methods struggle to reproduce complex scene dynamics and do not attempt to recover what occurred before or after an image was taken. Here, we introduce a new technique that repurposes a pre-trained video diffusion model trained on internet-scale datasets to recover videos revealing complex scene dynamics during the moment of capture and what might have occurred immediately into the past or future. Our approach is robust and versatile; it outperforms previous methods for this task, generalizes to challenging in-the-wild images, and supports downstream tasks such as recovering camera trajectories, object motion, and dynamic 3D scene structure. Code and data are available at https://blur2vid.github.io
- Abstract(参考訳): 私たちは、あるシーンの過去、現在、未来について、モーションブルーの画像から何がわかるのか、という問いに答えようとしています。
動きは画像の詳細を曖昧にし、視覚的品質を劣化させるが、露出中のシーンやカメラの動きに関する情報もエンコードする。
従来の手法では、この情報を利用して入力のぼやけた画像からシャープな画像を推定したり、画像キャプチャの瞬間に何が起こったかを示す一連のビデオフレームを予測したりしていた。
しかし、この逆問題におけるあいまいさを解決するために手作りの事前処理やネットワークアーキテクチャに依存しており、大規模なデータセットに画像やビデオの先行処理を組み込まない。
そのため、既存の手法は複雑なシーンのダイナミクスを再現するのに苦労し、画像の撮影前後で起こったことを回復しようとはしない。
本稿では,インターネット規模のデータセットでトレーニングした事前学習ビデオ拡散モデルを用いて,キャプチャの瞬間に複雑なシーンのダイナミクスが明らかになり,過去や未来に何が起こったのかを再現する手法を提案する。
提案手法は従来の手法よりも優れており,映像の撮影に挑戦し,カメラ軌道の復元や物体の動き,ダイナミックな3Dシーン構造などの下流作業を支援する。
コードとデータはhttps://blur2vid.github.ioで公開されている。
関連論文リスト
- DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。
近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。
本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文 参考訳(メタデータ) (2025-06-21T12:51:34Z) - AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos [52.726585508669686]
我々は,動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを作り出すことができる。
論文 参考訳(メタデータ) (2025-03-30T02:22:11Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Fillerbuster: Multi-View Scene Completion for Casual Captures [48.12462469832712]
本稿では,新しい大規模多視点潜伏拡散変換器を用いて3次元シーンの未知領域を完結するFillerbusterを提案する。
我々の解決策は、未知のターゲットビューを生成し、必要に応じて画像のポーズを復元しながら、入力フレームの広いコンテキストを消費できる生成モデルを訓練することである。
論文 参考訳(メタデータ) (2025-02-07T18:59:51Z) - Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - TimeRewind: Rewinding Time with Image-and-Events Video Diffusion [10.687722181495065]
本稿では,シャッターボタンが押される直前に欠落したフリーティングモーメントを回復するために,単一のキャプチャ画像からタイムを巻き戻すという,新たな課題について述べる。
我々は、時間分解能の高いモーション情報をキャプチャするニューロモルフィックイベントカメラの新興技術を活用することで、この課題を克服する。
提案フレームワークは,イベントカメラデータに基づくイベントモーションアダプタを導入し,この拡散モデルを用いて,キャプチャしたイベントに視覚的に整合性を持ち,物理的に接地した映像を生成する。
論文 参考訳(メタデータ) (2024-03-20T17:57:02Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。