論文の概要: SpikeGen: Generative Framework for Visual Spike Stream Processing
- arxiv url: http://arxiv.org/abs/2505.18049v1
- Date: Fri, 23 May 2025 15:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.209044
- Title: SpikeGen: Generative Framework for Visual Spike Stream Processing
- Title(参考訳): SpikeGen: ビジュアルスパイクストリーム処理のための生成フレームワーク
- Authors: Gaole Dai, Menghang Dong, Rongyu Zhang, Ruichuan An, Shanghang Zhang, Tiejun Huang,
- Abstract要約: 我々はスパイクカメラが捉えた視覚的なスパイクストリームのための堅牢な生成処理フレームワークSpikeGenを紹介した。
このフレームワークは,条件付き画像/ビデオのデブロアリング,スパイクストリームからの高密度フレーム再構成,高速シーンノベルビュー合成など,混合スパイク-RGBモダリティを含む複数のタスクにまたがって評価される。
- 参考スコア(独自算出の注目度): 35.33197152363442
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neuromorphic Visual Systems, such as spike cameras, have attracted considerable attention due to their ability to capture clear textures under dynamic conditions. This capability effectively mitigates issues related to motion and aperture blur. However, in contrast to conventional RGB modalities that provide dense spatial information, these systems generate binary, spatially sparse frames as a trade-off for temporally rich visual streams. In this context, generative models emerge as a promising solution to address the inherent limitations of sparse data. These models not only facilitate the conditional fusion of existing information from both spike and RGB modalities but also enable the conditional generation based on latent priors. In this study, we introduce a robust generative processing framework named SpikeGen, designed for visual spike streams captured by spike cameras. We evaluate this framework across multiple tasks involving mixed spike-RGB modalities, including conditional image/video deblurring, dense frame reconstruction from spike streams, and high-speed scene novel-view synthesis. Supported by comprehensive experimental results, we demonstrate that leveraging the latent space operation abilities of generative models allows us to effectively address the sparsity of spatial information while fully exploiting the temporal richness of spike streams, thereby promoting a synergistic enhancement of different visual modalities.
- Abstract(参考訳): スパイクカメラのようなニューロモルフィック・ビジュアル・システムは、動的条件下で透明なテクスチャを捉える能力によって、かなりの注目を集めている。
この機能は、動きや開口のぼかしに関連する問題を効果的に軽減する。
しかし、密集した空間情報を提供する従来のRGBモダリティとは対照的に、これらのシステムは、時間的に豊かな視覚ストリームのトレードオフとして、二分的、空間的にスパースなフレームを生成する。
この文脈では、生成モデルはスパースデータ固有の制限に対処するための有望な解決策として現れる。
これらのモデルは、スパイクとRGBモダリティの両方から既存の情報の条件付き融合を促進するだけでなく、潜時前の条件付き生成を可能にする。
本研究では、スパイクカメラが捉えた視覚的スパイクストリームのための堅牢な生成処理フレームワークSpikeGenを紹介する。
このフレームワークは,条件付き画像/ビデオのデブロアリング,スパイクストリームからの高密度フレーム再構成,高速シーンノベルビュー合成など,混合スパイク-RGBモダリティを含む複数のタスクにまたがって評価される。
総合的な実験結果から,生成モデルの潜在空間操作能力を利用することで,スパイクストリームの時間的豊かさを十分に活用しつつ,空間情報の空間性に効果的に対処できることが示され,視覚的モダリティの相乗的向上が促進される。
関連論文リスト
- RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Rethinking High-speed Image Reconstruction Framework with Spike Camera [48.627095354244204]
スパイクカメラは連続的なスパイクストリームを生成し、従来のRGBカメラよりも低帯域幅でダイナミックレンジの高速シーンをキャプチャする。
従来のトレーニングパラダイムを超える新しいスパイク・ツー・イメージ再構築フレームワークであるSpikeCLIPを導入する。
実世界の低照度データセットに対する実験により、SpikeCLIPはテクスチャの詳細と回復した画像の輝度バランスを大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-01-08T13:00:17Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。