論文の概要: SwinSF: Image Reconstruction from Spatial-Temporal Spike Streams
- arxiv url: http://arxiv.org/abs/2407.15708v1
- Date: Mon, 22 Jul 2024 15:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:30:36.483758
- Title: SwinSF: Image Reconstruction from Spatial-Temporal Spike Streams
- Title(参考訳): SwinSF:時空間スパイクストリームからの画像再構成
- Authors: Liangyan Jiang, Chuang Zhu, Yanxu Chen,
- Abstract要約: スパイクストリームからの動的シーン再構築のための新しいモデルであるSwin Spikeformer(SwinSF)を紹介する。
SwinSFは、シフトしたウィンドウの自己注意と時間的スパイクアテンションを組み合わせ、包括的な特徴抽出を保証する。
我々は、最新のスパイクカメラの解像度と一致するスパイク画像再構成のための新しい合成データセットを構築した。
- 参考スコア(独自算出の注目度): 2.609896297570564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The spike camera, with its high temporal resolution, low latency, and high dynamic range, addresses high-speed imaging challenges like motion blur. It captures photons at each pixel independently, creating binary spike streams rich in temporal information but challenging for image reconstruction. Current algorithms, both traditional and deep learning-based, still need to be improved in the utilization of the rich temporal detail and the restoration of the details of the reconstructed image. To overcome this, we introduce Swin Spikeformer (SwinSF), a novel model for dynamic scene reconstruction from spike streams. SwinSF is composed of Spike Feature Extraction, Spatial-Temporal Feature Extraction, and Final Reconstruction Module. It combines shifted window self-attention and proposed temporal spike attention, ensuring a comprehensive feature extraction that encapsulates both spatial and temporal dynamics, leading to a more robust and accurate reconstruction of spike streams. Furthermore, we build a new synthesized dataset for spike image reconstruction which matches the resolution of the latest spike camera, ensuring its relevance and applicability to the latest developments in spike camera imaging. Experimental results demonstrate that the proposed network SwinSF sets a new benchmark, achieving state-of-the-art performance across a series of datasets, including both real-world and synthesized data across various resolutions. Our codes and proposed dataset will be available soon.
- Abstract(参考訳): スパイクカメラは、時間分解能が高く、レイテンシも低く、ダイナミックレンジも高い。
個々のピクセルの光子を個別にキャプチャし、時間情報に富んだバイナリスパイクストリームを生成するが、画像再構成には挑戦する。
現在のアルゴリズムは、従来型とディープラーニングベースの両方で、豊富な時間的詳細の活用と、再構成された画像の詳細の復元で改善する必要がある。
これを解決するために,スパイクストリームからの動的シーン再構築のための新しいモデルであるSwin Spikeformer(SwinSF)を紹介した。
SwinSFはスパイク特徴抽出、時空間特徴抽出、最終再構成モジュールで構成されている。
シフトしたウィンドウの自己注意と時間的スパイクアテンションを組み合わせ、空間的および時間的ダイナミクスの両方をカプセル化した包括的な特徴抽出を確実にし、スパイクストリームをより堅牢かつ正確に再構築する。
さらに、スパイク画像再構成のための新しいデータセットを構築し、最新のスパイクカメラの解像度と一致し、スパイクカメライメージングの最新の発展にその妥当性と適用性を保証する。
実験の結果,提案するネットワークSwinSFは,さまざまな解像度で実世界のデータと合成されたデータを含む一連のデータセットに対して,最先端のパフォーマンスを実現するため,新たなベンチマークを設定できた。
コードと提案されたデータセットが近く利用可能になります。
関連論文リスト
- Spike-NeRF: Neural Radiance Field Based On Spike Camera [24.829344089740303]
スパイクデータから導出した最初のニューラルレーダランス場であるSpike-NeRFを提案する。
NeRFと同時に撮影されたマルチビュー画像の代わりに、Spike-NeRFの入力は、非常に短時間で動くスパイクカメラによってキャプチャされた連続的なスパイクストリームである。
その結果,Spike-NeRFは既存の手法や高速シーンで提案したベースラインよりも視覚的に魅力的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-25T04:05:23Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - Learning to Robustly Reconstruct Low-light Dynamic Scenes from Spike Streams [28.258022350623023]
ニューロモルフィックセンサーとして、スパイクカメラは連続したバイナリスパイクストリームを生成してピクセル当たりの光強度を捉えることができる。
本稿では,光ロバスト表現(LR-Rep)と融合モジュールを含む双方向のリカレントに基づく再構成フレームワークを提案する。
我々は,高速低照度シーンの再現ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-01-19T03:01:07Z) - ReconFusion: 3D Reconstruction with Diffusion Priors [104.73604630145847]
本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。
提案手法は,合成および多視点データセットに基づいて訓練された新規なビュー合成に先立って拡散を利用する。
本手法は,観測領域の外観を保ちながら,非拘束領域における現実的な幾何学とテクスチャを合成する。
論文 参考訳(メタデータ) (2023-12-05T18:59:58Z) - Robust e-NeRF: NeRF from Sparse & Noisy Events under Non-Uniform Motion [67.15935067326662]
イベントカメラは低電力、低レイテンシ、高時間解像度、高ダイナミックレンジを提供する。
NeRFは効率的かつ効果的なシーン表現の第一候補と見なされている。
本稿では,移動イベントカメラからNeRFを直接かつ堅牢に再構成する新しい手法であるRobust e-NeRFを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:52:08Z) - Recurrent Spike-based Image Restoration under General Illumination [21.630646894529065]
スパイクカメラは、高時間分解能(2万Hz)のスパイクアレイの形で光強度を記録する、バイオインスパイアされた新しいタイプの視覚センサーである
既存のスパイクベースのアプローチは通常、シーンは十分な光強度を持つと仮定し、雨の日や夕暮れのシーンのような多くの現実のシナリオでは利用できない。
本稿では、一般的な照明下でのスパイクアレイからの鮮明な画像の復元に向けた最初の取り組みである、リカレントスパイクに基づく画像復元(RSIR)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T04:24:28Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - Recovering Continuous Scene Dynamics from A Single Blurry Image with
Events [58.7185835546638]
インプリシットビデオ関数(IVF)は、同時イベントを伴う単一の動きのぼやけた画像を表現する。
両モードの利点を効果的に活用するために、二重注意変換器を提案する。
提案するネットワークは,限られた参照タイムスタンプの地平線画像の監督のみで訓練される。
論文 参考訳(メタデータ) (2023-04-05T18:44:17Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation [47.984368369734995]
本稿では,イベントベース光フロー推定のためのニューラルネットアーキテクチャを提案する。
このネットワークは、Multi-Vehicle Stereo Event Cameraデータセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
既存の最先端の手法を大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-10T13:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。