論文の概要: SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework
- arxiv url: http://arxiv.org/abs/2505.18049v2
- Date: Wed, 01 Oct 2025 03:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.588095
- Title: SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework
- Title(参考訳): SpikeGen: 潜在生成フレームワークによる視覚表現処理を分離した"Rods and Cones"
- Authors: Gaole Dai, Menghang Dong, Rongyu Zhang, Ruichuan An, Shanghang Zhang, Tiejun Huang,
- Abstract要約: 本研究では,現代の潜在空間生成フレームワークとマルチモーダル視覚入力を統合することで,人間の視覚システムをエミュレートすることを目的とする。
我々はSpikeGenと命名し、条件付き画像やビデオの劣化、スパイクストリームからの高密度フレーム再構成、高速シーンノベルビュー合成など、様々なスパイクRGBタスクのパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 53.27177454390712
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The process through which humans perceive and learn visual representations in dynamic environments is highly complex. From a structural perspective, the human eye decouples the functions of cone and rod cells: cones are primarily responsible for color perception, while rods are specialized in detecting motion, particularly variations in light intensity. These two distinct modalities of visual information are integrated and processed within the visual cortex, thereby enhancing the robustness of the human visual system. Inspired by this biological mechanism, modern hardware systems have evolved to include not only color-sensitive RGB cameras but also motion-sensitive Dynamic Visual Systems, such as spike cameras. Building upon these advancements, this study seeks to emulate the human visual system by integrating decomposed multi-modal visual inputs with modern latent-space generative frameworks. We named it SpikeGen. We evaluate its performance across various spike-RGB tasks, including conditional image and video deblurring, dense frame reconstruction from spike streams, and high-speed scene novel-view synthesis. Supported by extensive experiments, we demonstrate that leveraging the latent space manipulation capabilities of generative models enables an effective synergistic enhancement of different visual modalities, addressing spatial sparsity in spike inputs and temporal sparsity in RGB inputs.
- Abstract(参考訳): 動的環境における視覚的表現を人間が知覚し、学習する過程は非常に複雑である。
構造的な観点から見ると、人間の目は錐体と棒細胞の機能を分離する:円錐体は主に色知覚に責任を持ち、棒は動き、特に光強度の変化を検知する。
これら2つの異なる視覚情報モダリティは、視覚野に集積され、処理され、人間の視覚系の堅牢性を高める。
この生物学的メカニズムに触発されて、現代のハードウェアシステムは、色に敏感なRGBカメラだけでなく、スパイクカメラのようなモーションに敏感なダイナミックビジュアルシステムを含むように進化してきた。
これらの進歩に基づいて, 分解されたマルチモーダル視覚入力と現代の潜在空間生成フレームワークを統合することで, 人間の視覚システムをエミュレートすることを目指す。
SpikeGenと名づけた。
本研究では、条件付き画像やビデオの劣化、スパイクストリームからのフレームの高密度化、高速シーンノベルビュー合成など、様々なスパイクRGBタスクのパフォーマンスを評価する。
広汎な実験により、生成モデルの潜時空間操作機能を利用することで、スパイク入力における空間空間幅とRGB入力における時間空間間隔に対処し、異なる視覚的モダリティを効果的にシナジスティックに拡張できることが実証された。
関連論文リスト
- YCDa: YCbCr Decoupled Attention for Real-time Realistic Camouflaged Object Detection [3.1373048585002254]
YCDaは、この「クロミナンス分離とダイナミックアテンション」原理を現代のリアルタイム検出器に組み込む、効率的なアーリーステージ機能処理戦略である。
YCDaはプラグアンドプレイで、最初のダウンサンプリング層を置き換えるだけで既存の検出器に統合できる。
論文 参考訳(メタデータ) (2026-03-02T08:31:20Z) - Physically Aware 360$^\circ$ View Generation from a Single Image using Disentangled Scene Embeddings [0.0]
そこで,Distangled360を提案する。Distangled360はDistangled volumeレンダリングの利点と単一画像の360ビュー合成を融合した3D認識技術である。
Disentangled360は、混合現実の医療監督、ロボット知覚、没入型コンテンツ作成を促進する。
論文 参考訳(メタデータ) (2025-12-11T05:20:24Z) - Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - Vision At Night: Exploring Biologically Inspired Preprocessing For Improved Robustness Via Color And Contrast Transformations [18.437759539809175]
生物学的に動機づけられた入力前処理によるロバストなセマンティックセグメンテーションについて検討する。
RGB, グレースケール, 反対色チャネルに差分ガウスフィルタを適用することにより, モデルアーキテクチャやトレーニングを変更することなく, 局所コントラストを高めることができる。
このような前処理は, 夜間, 霧, 雪等の悪環境に適応しつつ, 流通性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-09-29T14:48:32Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - THYME: Temporal Hierarchical-Cyclic Interactivity Modeling for Video Scene Graphs in Aerial Footage [11.587822611656648]
時間的階層的周期的シーングラフ(THYME)アプローチを導入し,階層的特徴集約と周期的時間的改善を統合して限界に対処する。
THYMEは、マルチスケールの空間コンテキストを効果的にモデル化し、フレーム間の時間的一貫性を強制し、より正確で一貫性のあるシーングラフを生成する。
さらに,既存のデータセットの制約を克服する5種類の対話性を備えた新しい空中ビデオデータセットであるAeroEye-v1.0を提案する。
論文 参考訳(メタデータ) (2025-07-12T08:43:38Z) - V-HOP: Visuo-Haptic 6D Object Pose Tracking [18.25135101142697]
人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
事前のポーズ推定研究は視覚的・触覚的・触覚的フィードバックを組み合わせることを試みている。
本稿では,新しいビジュオハプティックトランスフォーマーを用いたオブジェクトポーズトラッカーを提案する。
論文 参考訳(メタデータ) (2025-02-24T18:59:50Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Rethinking High-speed Image Reconstruction Framework with Spike Camera [48.627095354244204]
スパイクカメラは連続的なスパイクストリームを生成し、従来のRGBカメラよりも低帯域幅でダイナミックレンジの高速シーンをキャプチャする。
従来のトレーニングパラダイムを超える新しいスパイク・ツー・イメージ再構築フレームワークであるSpikeCLIPを導入する。
実世界の低照度データセットに対する実験により、SpikeCLIPはテクスチャの詳細と回復した画像の輝度バランスを大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-01-08T13:00:17Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。