論文の概要: TimeRewind: Rewinding Time with Image-and-Events Video Diffusion
- arxiv url: http://arxiv.org/abs/2403.13800v1
- Date: Wed, 20 Mar 2024 17:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 15:48:57.774010
- Title: TimeRewind: Rewinding Time with Image-and-Events Video Diffusion
- Title(参考訳): TimeRewind:画像とイベントの拡散で時間を巻き戻す
- Authors: Jingxi Chen, Brandon Y. Feng, Haoming Cai, Mingyang Xie, Christopher Metzler, Cornelia Fermuller, Yiannis Aloimonos,
- Abstract要約: 本稿では,シャッターボタンが押される直前に欠落したフリーティングモーメントを回復するために,単一のキャプチャ画像からタイムを巻き戻すという,新たな課題について述べる。
我々は、時間分解能の高いモーション情報をキャプチャするニューロモルフィックイベントカメラの新興技術を活用することで、この課題を克服する。
提案フレームワークは,イベントカメラデータに基づくイベントモーションアダプタを導入し,この拡散モデルを用いて,キャプチャしたイベントに視覚的に整合性を持ち,物理的に接地した映像を生成する。
- 参考スコア(独自算出の注目度): 10.687722181495065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the novel challenge of ``rewinding'' time from a single captured image to recover the fleeting moments missed just before the shutter button is pressed. This problem poses a significant challenge in computer vision and computational photography, as it requires predicting plausible pre-capture motion from a single static frame, an inherently ill-posed task due to the high degree of freedom in potential pixel movements. We overcome this challenge by leveraging the emerging technology of neuromorphic event cameras, which capture motion information with high temporal resolution, and integrating this data with advanced image-to-video diffusion models. Our proposed framework introduces an event motion adaptor conditioned on event camera data, guiding the diffusion model to generate videos that are visually coherent and physically grounded in the captured events. Through extensive experimentation, we demonstrate the capability of our approach to synthesize high-quality videos that effectively ``rewind'' time, showcasing the potential of combining event camera technology with generative models. Our work opens new avenues for research at the intersection of computer vision, computational photography, and generative modeling, offering a forward-thinking solution to capturing missed moments and enhancing future consumer cameras and smartphones. Please see the project page at https://timerewind.github.io/ for video results and code release.
- Abstract(参考訳): 本稿では,シャッターボタンが押される直前に見逃されたフリーティングモーメントを回復するために,単一のキャプチャ画像から‘再巻き戻し’という新たな課題について述べる。
この問題は、コンピュータビジョンと計算写真において重要な課題となり、単一の静的フレームから可視なプレキャプチャ動作を予測する必要がある。
この課題を克服するために、時間分解能の高いモーション情報をキャプチャするニューロモルフィックイベントカメラの新興技術を活用し、高度な画像と映像の拡散モデルと統合する。
提案フレームワークは,イベントカメラデータに基づくイベントモーションアダプタを導入し,この拡散モデルを用いて,キャプチャしたイベントに視覚的に整合性を持ち,物理的に接地した映像を生成する。
広範にわたる実験を通して,我々は,イベントカメラ技術と生成モデルを組み合わせる可能性を示しながら,効果的に「再風」する高品質な映像を合成する手法の能力を実証した。
私たちの研究は、コンピュータビジョン、計算写真、生成モデリングの交差点での新たな研究の道を開き、見逃した瞬間を捉え、将来の消費者向けカメラやスマートフォンを向上するための先進的なソリューションを提供します。
ビデオ結果とコードリリースについては、https://timerewind.github.io/のプロジェクトページを参照してください。
関連論文リスト
- Investigating Event-Based Cameras for Video Frame Interpolation in Sports [59.755469098797406]
本稿では,スポーツスローモーションビデオを生成するためのイベントベースビデオフレーム補間(VFI)モデルについて検討する。
特に,スポーツ映像を撮影するためのRGBとイベントベースカメラを含むバイカメラ記録装置の設計と実装を行い,両カメラの時間的整列と空間的登録を行う。
実験により,市販のイベントベースVFIモデルであるTimeLensが,スポーツビデオのスローモーション映像を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2024-07-02T15:39:08Z) - Event-based Continuous Color Video Decompression from Single Frames [38.59798259847563]
本研究では,イベントカメラを用いて,単一の静的RGB画像から連続映像を生成する新しい手法であるContinuityCamを提案する。
提案手法は、連続した長距離動きモデリングと特徴平面に基づくニューラル統合モデルを組み合わせることで、イベント内の任意のタイミングでフレーム予測を可能にする。
論文 参考訳(メタデータ) (2023-11-30T18:59:23Z) - EGVD: Event-Guided Video Deraining [57.59935209162314]
本稿では,ビデオデライニングのためのイベントカメラの可能性を解放するエンド・ツー・エンドの学習ネットワークを提案する。
雨の多いビデオと時間的に同期されたイベントストリームからなる現実世界のデータセットを構築します。
論文 参考訳(メタデータ) (2023-09-29T13:47:53Z) - Pedestrian detection with high-resolution event camera [0.0]
イベントカメラ(DVS)は、上記の問題に対処するための、潜在的に興味深い技術である。
本稿では,歩行者検出作業における深層学習によるイベントデータ処理の2つの方法の比較を行う。
ビデオフレーム,畳み込みニューラルネットワーク,非同期スパース畳み込みニューラルネットワークの形式で表現した。
論文 参考訳(メタデータ) (2023-05-29T10:57:59Z) - TimeReplayer: Unlocking the Potential of Event Cameras for Video
Interpolation [78.99283105497489]
イベントカメラは、任意に複雑な動きのあるビデオを可能にする新しいデバイスである。
本稿では,コモディティカメラが捉えた映像とイベントとを補間するTimeReplayerアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-25T18:57:42Z) - Event-guided Deblurring of Unknown Exposure Time Videos [31.992673443516235]
イベントカメラは、高時間分解能で見かけの動きを捉えることができる。
本稿では,イベント特徴を選択的に利用するための新しい露光時間に基づくイベント選択モジュールを提案する。
本手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-13T19:46:17Z) - MEFNet: Multi-scale Event Fusion Network for Motion Deblurring [62.60878284671317]
従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。
バイオインスパイアされたカメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録する。
本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。
論文 参考訳(メタデータ) (2021-11-30T23:18:35Z) - EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream [80.15360180192175]
単眼ビデオからの3d手ポーズ推定は、長年の課題である。
我々は1つのイベントカメラ、すなわち明るさ変化に反応する非同期視覚センサを使用して、初めてそれに対処する。
従来,単一のrgbカメラや深度カメラでは表示されなかった特徴がある。
論文 参考訳(メタデータ) (2020-12-11T16:45:34Z) - 4D Visualization of Dynamic Events from Unconstrained Multi-View Videos [77.48430951972928]
ハンドヘルド複数カメラで撮影したビデオから4次元の時空間で動的事象を可視化するためのデータ駆動型アプローチを提案する。
このアプローチの鍵となるのは、イベントの静的および動的側面を構成するために、シーン固有の自己教師型ニューラルネットワークを使用することです。
このモデルでは,(1)時刻の凍結と視界探索,(2)視点の凍結と時間移動,(3)時間と視界の同時変更を行う仮想カメラを作成することができる。
論文 参考訳(メタデータ) (2020-05-27T17:57:19Z) - Learning to Deblur and Generate High Frame Rate Video with an Event
Camera [0.0]
イベントカメラは、高速なシーンを記録する際に、動きのぼやけに悩まされない。
従来型のカメラの難読化タスクを、イベントによって指示され、残留学習タスクとなるように定式化する。
本稿では,デブロアリングと高フレームレートビデオ生成タスクを効果的に学習するネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-02T13:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。