論文の概要: EIFNet: Leveraging Event-Image Fusion for Robust Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.21971v1
- Date: Tue, 29 Jul 2025 16:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.659134
- Title: EIFNet: Leveraging Event-Image Fusion for Robust Semantic Segmentation
- Title(参考訳): EIFNet:ロバストなセマンティックセグメンテーションのためのイベントイメージ融合を活用する
- Authors: Zhijiang Li, Haoran He,
- Abstract要約: イベントカメラは、高ダイナミックレンジと微妙な時間分解能を提供し、挑戦的な環境で堅牢なシーン理解を実現する。
イベントとフレームベースの入力の長所を組み合わせたマルチモーダル融合ネットワーク EIFNet を提案する。
EIFNetは最先端のパフォーマンスを実現し、イベントベースのセマンティックセグメンテーションの有効性を示す。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based semantic segmentation explores the potential of event cameras, which offer high dynamic range and fine temporal resolution, to achieve robust scene understanding in challenging environments. Despite these advantages, the task remains difficult due to two main challenges: extracting reliable features from sparse and noisy event streams, and effectively fusing them with dense, semantically rich image data that differ in structure and representation. To address these issues, we propose EIFNet, a multi-modal fusion network that combines the strengths of both event and frame-based inputs. The network includes an Adaptive Event Feature Refinement Module (AEFRM), which improves event representations through multi-scale activity modeling and spatial attention. In addition, we introduce a Modality-Adaptive Recalibration Module (MARM) and a Multi-Head Attention Gated Fusion Module (MGFM), which align and integrate features across modalities using attention mechanisms and gated fusion strategies. Experiments on DDD17-Semantic and DSEC-Semantic datasets show that EIFNet achieves state-of-the-art performance, demonstrating its effectiveness in event-based semantic segmentation.
- Abstract(参考訳): イベントベースのセマンティックセグメンテーションは、課題のある環境で堅牢なシーン理解を実現するために、高ダイナミックレンジと微妙な時間分解を提供するイベントカメラの可能性を探る。
これらの利点にもかかわらず、このタスクは、スパースとノイズの多いイベントストリームから信頼性のある特徴を抽出し、構造と表現が異なる密集した意味的にリッチな画像データと効果的に融合させるという2つの主な課題のために、依然として難しいままである。
これらの問題に対処するために,イベントとフレームベースの入力の長所を結合したマルチモーダル融合ネットワーク EIFNet を提案する。
このネットワークには、マルチスケールのアクティビティモデリングと空間的注意によるイベント表現を改善するAdaptive Event Feature Refinement Module (AEFRM)が含まれている。
さらに,MARM(Modality-Adaptive Recalibration Module)とMGFM(Multi-Head Attention Gated Fusion Module)を導入する。
DDD17-SemanticデータセットとDSEC-Semanticデータセットの実験は、EDFNetが最先端のパフォーマンスを実現し、イベントベースのセマンティックセマンティックセマンティクスの有効性を実証していることを示している。
関連論文リスト
- Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach [13.681130802391223]
イベントカメラは、その高時間分解能とその他の有利な性質により、画像セマンティックセグメンテーションに導入されている。
本稿では、イベントのためのスパイキングネットワークブランチと、フレームのためのニューラルネットワークブランチからなる、画像セマンティックセグメンテーションのための効率的なハイブリッドフレームワークを提案する。
具体的には,これら2つのブランチ間の相互作用を促進するために,Adaptive Temporal Weighting (ATW), Event-Driven Sparse (EDS), Channel Selection Fusion (CSF)モジュールの3つの特別なモジュールを紹介する。
論文 参考訳(メタデータ) (2025-07-04T18:30:28Z) - Adaptive Frequency Enhancement Network for Remote Sensing Image Semantic Segmentation [33.49405456617909]
本稿では、適応周波数と空間特徴の相互作用モジュール(AFSIM)と選択特徴の融合モジュール(SFM)の2つの重要なコンポーネントを統合した適応周波数拡張ネットワーク(AFENet)を提案する。
AFSIMは入力画像の内容に応じて、高周波数特徴と低周波特徴を動的に分離・変調する。
SFMは、ネットワークの表現能力を高めるために、グローバルコンテキストとローカル詳細機能を選択的に融合する。
論文 参考訳(メタデータ) (2025-04-03T14:42:49Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - CSRNet: Cascaded Selective Resolution Network for Real-time Semantic
Segmentation [18.63596070055678]
本稿では,リアルタイムセグメンテーションの性能向上を図るために,光カスケード選択分解ネットワーク(CSRNet)を提案する。
提案するネットワークは,低解像度から高解像度までの特徴情報を統合した3段階セグメンテーションシステムを構築している。
2つのよく知られたデータセットの実験により、提案したCSRNetはリアルタイムセグメンテーションの性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2021-06-08T14:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。