論文の概要: SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework
- arxiv url: http://arxiv.org/abs/2505.18049v2
- Date: Wed, 01 Oct 2025 03:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.588095
- Title: SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework
- Title(参考訳): SpikeGen: 潜在生成フレームワークによる視覚表現処理を分離した"Rods and Cones"
- Authors: Gaole Dai, Menghang Dong, Rongyu Zhang, Ruichuan An, Shanghang Zhang, Tiejun Huang,
- Abstract要約: 本研究では,現代の潜在空間生成フレームワークとマルチモーダル視覚入力を統合することで,人間の視覚システムをエミュレートすることを目的とする。
我々はSpikeGenと命名し、条件付き画像やビデオの劣化、スパイクストリームからの高密度フレーム再構成、高速シーンノベルビュー合成など、様々なスパイクRGBタスクのパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 53.27177454390712
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The process through which humans perceive and learn visual representations in dynamic environments is highly complex. From a structural perspective, the human eye decouples the functions of cone and rod cells: cones are primarily responsible for color perception, while rods are specialized in detecting motion, particularly variations in light intensity. These two distinct modalities of visual information are integrated and processed within the visual cortex, thereby enhancing the robustness of the human visual system. Inspired by this biological mechanism, modern hardware systems have evolved to include not only color-sensitive RGB cameras but also motion-sensitive Dynamic Visual Systems, such as spike cameras. Building upon these advancements, this study seeks to emulate the human visual system by integrating decomposed multi-modal visual inputs with modern latent-space generative frameworks. We named it SpikeGen. We evaluate its performance across various spike-RGB tasks, including conditional image and video deblurring, dense frame reconstruction from spike streams, and high-speed scene novel-view synthesis. Supported by extensive experiments, we demonstrate that leveraging the latent space manipulation capabilities of generative models enables an effective synergistic enhancement of different visual modalities, addressing spatial sparsity in spike inputs and temporal sparsity in RGB inputs.
- Abstract(参考訳): 動的環境における視覚的表現を人間が知覚し、学習する過程は非常に複雑である。
構造的な観点から見ると、人間の目は錐体と棒細胞の機能を分離する:円錐体は主に色知覚に責任を持ち、棒は動き、特に光強度の変化を検知する。
これら2つの異なる視覚情報モダリティは、視覚野に集積され、処理され、人間の視覚系の堅牢性を高める。
この生物学的メカニズムに触発されて、現代のハードウェアシステムは、色に敏感なRGBカメラだけでなく、スパイクカメラのようなモーションに敏感なダイナミックビジュアルシステムを含むように進化してきた。
これらの進歩に基づいて, 分解されたマルチモーダル視覚入力と現代の潜在空間生成フレームワークを統合することで, 人間の視覚システムをエミュレートすることを目指す。
SpikeGenと名づけた。
本研究では、条件付き画像やビデオの劣化、スパイクストリームからのフレームの高密度化、高速シーンノベルビュー合成など、様々なスパイクRGBタスクのパフォーマンスを評価する。
広汎な実験により、生成モデルの潜時空間操作機能を利用することで、スパイク入力における空間空間幅とRGB入力における時間空間間隔に対処し、異なる視覚的モダリティを効果的にシナジスティックに拡張できることが実証された。
関連論文リスト
- VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - THYME: Temporal Hierarchical-Cyclic Interactivity Modeling for Video Scene Graphs in Aerial Footage [11.587822611656648]
時間的階層的周期的シーングラフ(THYME)アプローチを導入し,階層的特徴集約と周期的時間的改善を統合して限界に対処する。
THYMEは、マルチスケールの空間コンテキストを効果的にモデル化し、フレーム間の時間的一貫性を強制し、より正確で一貫性のあるシーングラフを生成する。
さらに,既存のデータセットの制約を克服する5種類の対話性を備えた新しい空中ビデオデータセットであるAeroEye-v1.0を提案する。
論文 参考訳(メタデータ) (2025-07-12T08:43:38Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Rethinking High-speed Image Reconstruction Framework with Spike Camera [48.627095354244204]
スパイクカメラは連続的なスパイクストリームを生成し、従来のRGBカメラよりも低帯域幅でダイナミックレンジの高速シーンをキャプチャする。
従来のトレーニングパラダイムを超える新しいスパイク・ツー・イメージ再構築フレームワークであるSpikeCLIPを導入する。
実世界の低照度データセットに対する実験により、SpikeCLIPはテクスチャの詳細と回復した画像の輝度バランスを大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-01-08T13:00:17Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。