Fugu-MT 論文翻訳(概要): EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction

論文の概要: EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction

arxiv url: http://arxiv.org/abs/2605.08073v1
Date: Fri, 08 May 2026 17:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.259375
Title: EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction
Title（参考訳）: EmambaIR: イベント誘導画像再構成のための効率的な視覚状態空間モデル
Authors: Wei Yu, Yunhang Qian,
Abstract要約: EmambaIRは、空間的にスパースで時間的に連続したイベントストリームを用いた画像再構成のために設計された、効率的な視覚状態空間モデルである。我々のフレームワークでは、TSAM(Top-k Sparse Attention Module)とGSSM(Gated State-Space Module)という2つの重要なコンポーネントを導入しています。
参考スコア（独自算出の注目度）: 7.034388167235335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent event-based image reconstruction methods predominantly rely on Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) to process complementary event information. However, these architectures face fundamental limitations: CNNs often fail to capture global feature correlations, whereas ViTs incur quadratic computational complexity (e.g., $O(n^2)$), hindering their application in high-resolution scenarios. To address these bottlenecks, we introduce EmambaIR, an Efficient visual State Space Model designed for image reconstruction using spatially sparse and temporally continuous event streams. Our framework introduces two key components: the cross-modal Top-k Sparse Attention Module (TSAM) and the Gated State-Space Module (GSSM). TSAM efficiently performs pixel-level top-k sparse attention to guide cross-modal interactions, yielding rich yet sparse fusion features. Subsequently, GSSM utilizes a nonlinear gated unit to enhance the temporal representation of vanilla linear-complexity ($O(n)$) SSMs, effectively capturing global contextual dependencies without the typical computational overhead. Extensive experiments on six datasets across three diverse image reconstruction tasks - motion deblurring, deraining, and High Dynamic Range (HDR) enhancement - demonstrate that EmambaIR significantly outperforms state-of-the-art methods while offering substantial reductions in memory consumption and computational cost. The source code and data are publicly available at: https://github.com/YunhangWickert/EmambaIR
Abstract（参考訳）: 最近のイベントベースの画像再構成手法は、補完的なイベント情報を処理するために、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)に大きく依存している。 CNNはグローバルな特徴相関を捉えるのに失敗することが多いが、ViTは2次計算の複雑さ(例:$O(n^2)$)を発生させ、高解像度シナリオでの応用を妨げる。これらのボトルネックに対処するために,空間的に疎外かつ時間的に連続したイベントストリームを用いた画像再構成のための効率的な視覚状態空間モデルであるEmambaIRを紹介した。我々のフレームワークでは,TSAM(Top-k Sparse Attention Module)とGSSM(Gated State-Space Module)という2つの重要なコンポーネントを導入している。 TSAMは効率よくピクセルレベルのトップkスパースアテンションを実行し、クロスモーダル相互作用を誘導し、リッチでスパースな融合特性をもたらす。その後、GSSMは非線形ゲートユニットを使用して、バニラ線形複雑度(O(n)$)SSMの時間的表現を強化する。 EmambaIRがメモリ消費と計算コストを大幅に削減しつつ、最先端の手法を著しく上回ることを実証している。ソースコードとデータは、https://github.com/YunhangWickert/EmambaIRで公開されている。

関連論文リスト

DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。 EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文参考訳（メタデータ） (2026-04-13T03:19:36Z)
MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation [17.515348703686232]
我々は,並列なMambaエンコーダを用いてRGB画像とイベントストリームを効率的にモデル化する,新しいデュアルブランチセマンティックセマンティックセマンティクスフレームワークであるMambaSegを提案する。 MambaSegは、最先端のセグメンテーション性能を達成し、計算コストを大幅に削減し、効率的でスケーラブルで堅牢なマルチモーダル知覚に対する約束を示す。
論文参考訳（メタデータ） (2025-12-30T14:09:17Z)
MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。 IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文参考訳（メタデータ） (2025-07-06T14:52:26Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文参考訳（メタデータ） (2024-05-08T11:09:24Z)
VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。 VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文参考訳（メタデータ） (2024-01-18T17:55:39Z)
HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文参考訳（メタデータ） (2022-11-19T17:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。