論文の概要: SpikeGen: Generative Framework for Visual Spike Stream Processing
- arxiv url: http://arxiv.org/abs/2505.18049v1
- Date: Fri, 23 May 2025 15:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.209044
- Title: SpikeGen: Generative Framework for Visual Spike Stream Processing
- Title(参考訳): SpikeGen: ビジュアルスパイクストリーム処理のための生成フレームワーク
- Authors: Gaole Dai, Menghang Dong, Rongyu Zhang, Ruichuan An, Shanghang Zhang, Tiejun Huang,
- Abstract要約: 我々はスパイクカメラが捉えた視覚的なスパイクストリームのための堅牢な生成処理フレームワークSpikeGenを紹介した。
このフレームワークは,条件付き画像/ビデオのデブロアリング,スパイクストリームからの高密度フレーム再構成,高速シーンノベルビュー合成など,混合スパイク-RGBモダリティを含む複数のタスクにまたがって評価される。
- 参考スコア(独自算出の注目度): 35.33197152363442
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neuromorphic Visual Systems, such as spike cameras, have attracted considerable attention due to their ability to capture clear textures under dynamic conditions. This capability effectively mitigates issues related to motion and aperture blur. However, in contrast to conventional RGB modalities that provide dense spatial information, these systems generate binary, spatially sparse frames as a trade-off for temporally rich visual streams. In this context, generative models emerge as a promising solution to address the inherent limitations of sparse data. These models not only facilitate the conditional fusion of existing information from both spike and RGB modalities but also enable the conditional generation based on latent priors. In this study, we introduce a robust generative processing framework named SpikeGen, designed for visual spike streams captured by spike cameras. We evaluate this framework across multiple tasks involving mixed spike-RGB modalities, including conditional image/video deblurring, dense frame reconstruction from spike streams, and high-speed scene novel-view synthesis. Supported by comprehensive experimental results, we demonstrate that leveraging the latent space operation abilities of generative models allows us to effectively address the sparsity of spatial information while fully exploiting the temporal richness of spike streams, thereby promoting a synergistic enhancement of different visual modalities.
- Abstract(参考訳): スパイクカメラのようなニューロモルフィック・ビジュアル・システムは、動的条件下で透明なテクスチャを捉える能力によって、かなりの注目を集めている。
この機能は、動きや開口のぼかしに関連する問題を効果的に軽減する。
しかし、密集した空間情報を提供する従来のRGBモダリティとは対照的に、これらのシステムは、時間的に豊かな視覚ストリームのトレードオフとして、二分的、空間的にスパースなフレームを生成する。
この文脈では、生成モデルはスパースデータ固有の制限に対処するための有望な解決策として現れる。
これらのモデルは、スパイクとRGBモダリティの両方から既存の情報の条件付き融合を促進するだけでなく、潜時前の条件付き生成を可能にする。
本研究では、スパイクカメラが捉えた視覚的スパイクストリームのための堅牢な生成処理フレームワークSpikeGenを紹介する。
このフレームワークは,条件付き画像/ビデオのデブロアリング,スパイクストリームからの高密度フレーム再構成,高速シーンノベルビュー合成など,混合スパイク-RGBモダリティを含む複数のタスクにまたがって評価される。
総合的な実験結果から,生成モデルの潜在空間操作能力を利用することで,スパイクストリームの時間的豊かさを十分に活用しつつ,空間情報の空間性に効果的に対処できることが示され,視覚的モダリティの相乗的向上が促進される。
関連論文リスト
- YCDa: YCbCr Decoupled Attention for Real-time Realistic Camouflaged Object Detection [3.1373048585002254]
YCDaは、この「クロミナンス分離とダイナミックアテンション」原理を現代のリアルタイム検出器に組み込む、効率的なアーリーステージ機能処理戦略である。
YCDaはプラグアンドプレイで、最初のダウンサンプリング層を置き換えるだけで既存の検出器に統合できる。
論文 参考訳(メタデータ) (2026-03-02T08:31:20Z) - Physically Aware 360$^\circ$ View Generation from a Single Image using Disentangled Scene Embeddings [0.0]
そこで,Distangled360を提案する。Distangled360はDistangled volumeレンダリングの利点と単一画像の360ビュー合成を融合した3D認識技術である。
Disentangled360は、混合現実の医療監督、ロボット知覚、没入型コンテンツ作成を促進する。
論文 参考訳(メタデータ) (2025-12-11T05:20:24Z) - Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - Vision At Night: Exploring Biologically Inspired Preprocessing For Improved Robustness Via Color And Contrast Transformations [18.437759539809175]
生物学的に動機づけられた入力前処理によるロバストなセマンティックセグメンテーションについて検討する。
RGB, グレースケール, 反対色チャネルに差分ガウスフィルタを適用することにより, モデルアーキテクチャやトレーニングを変更することなく, 局所コントラストを高めることができる。
このような前処理は, 夜間, 霧, 雪等の悪環境に適応しつつ, 流通性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-09-29T14:48:32Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - THYME: Temporal Hierarchical-Cyclic Interactivity Modeling for Video Scene Graphs in Aerial Footage [11.587822611656648]
時間的階層的周期的シーングラフ(THYME)アプローチを導入し,階層的特徴集約と周期的時間的改善を統合して限界に対処する。
THYMEは、マルチスケールの空間コンテキストを効果的にモデル化し、フレーム間の時間的一貫性を強制し、より正確で一貫性のあるシーングラフを生成する。
さらに,既存のデータセットの制約を克服する5種類の対話性を備えた新しい空中ビデオデータセットであるAeroEye-v1.0を提案する。
論文 参考訳(メタデータ) (2025-07-12T08:43:38Z) - V-HOP: Visuo-Haptic 6D Object Pose Tracking [18.25135101142697]
人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
事前のポーズ推定研究は視覚的・触覚的・触覚的フィードバックを組み合わせることを試みている。
本稿では,新しいビジュオハプティックトランスフォーマーを用いたオブジェクトポーズトラッカーを提案する。
論文 参考訳(メタデータ) (2025-02-24T18:59:50Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Rethinking High-speed Image Reconstruction Framework with Spike Camera [48.627095354244204]
スパイクカメラは連続的なスパイクストリームを生成し、従来のRGBカメラよりも低帯域幅でダイナミックレンジの高速シーンをキャプチャする。
従来のトレーニングパラダイムを超える新しいスパイク・ツー・イメージ再構築フレームワークであるSpikeCLIPを導入する。
実世界の低照度データセットに対する実験により、SpikeCLIPはテクスチャの詳細と回復した画像の輝度バランスを大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-01-08T13:00:17Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。