論文の概要: Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach
- arxiv url: http://arxiv.org/abs/2507.03765v1
- Date: Fri, 04 Jul 2025 18:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.869529
- Title: Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach
- Title(参考訳): フレーム-イベント融合による効率的なイベントベースセマンティックセマンティックセグメンテーション:ハイブリッドニューラルネットワークアプローチ
- Authors: Hebei Li, Yansong Peng, Jiahui Yuan, Peixi Wu, Jin Wang, Yueyi Zhang, Xiaoyan Sun,
- Abstract要約: イベントカメラは、その高時間分解能とその他の有利な性質により、画像セマンティックセグメンテーションに導入されている。
本稿では、イベントのためのスパイキングネットワークブランチと、フレームのためのニューラルネットワークブランチからなる、画像セマンティックセグメンテーションのための効率的なハイブリッドフレームワークを提案する。
具体的には,これら2つのブランチ間の相互作用を促進するために,Adaptive Temporal Weighting (ATW), Event-Driven Sparse (EDS), Channel Selection Fusion (CSF)モジュールの3つの特別なモジュールを紹介する。
- 参考スコア(独自算出の注目度): 13.681130802391223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras have recently been introduced into image semantic segmentation, owing to their high temporal resolution and other advantageous properties. However, existing event-based semantic segmentation methods often fail to fully exploit the complementary information provided by frames and events, resulting in complex training strategies and increased computational costs. To address these challenges, we propose an efficient hybrid framework for image semantic segmentation, comprising a Spiking Neural Network branch for events and an Artificial Neural Network branch for frames. Specifically, we introduce three specialized modules to facilitate the interaction between these two branches: the Adaptive Temporal Weighting (ATW) Injector, the Event-Driven Sparse (EDS) Injector, and the Channel Selection Fusion (CSF) module. The ATW Injector dynamically integrates temporal features from event data into frame features, enhancing segmentation accuracy by leveraging critical dynamic temporal information. The EDS Injector effectively combines sparse event data with rich frame features, ensuring precise temporal and spatial information alignment. The CSF module selectively merges these features to optimize segmentation performance. Experimental results demonstrate that our framework not only achieves state-of-the-art accuracy across the DDD17-Seg, DSEC-Semantic, and M3ED-Semantic datasets but also significantly reduces energy consumption, achieving a 65\% reduction on the DSEC-Semantic dataset.
- Abstract(参考訳): イベントカメラは、その高時間分解能とその他の有利な性質により、画像セマンティックセグメンテーションに導入されている。
しかし、既存のイベントベースのセマンティックセグメンテーション手法は、フレームやイベントによって提供される補完的な情報を十分に活用することができず、複雑なトレーニング戦略と計算コストが増大する。
これらの課題に対処するために、イベントのためのスパイキングニューラルネットワークブランチとフレームのための人工ニューラルネットワークブランチからなる、画像セマンティックセグメンテーションのための効率的なハイブリッドフレームワークを提案する。
具体的には,適応時間重み付け(ATW)インジェクタ,イベント駆動スパース(EDS)インジェクタ,チャネル選択融合(CSF)インジェクタの3つの特別なモジュールを紹介する。
ATWインジェクタは、イベントデータからの時間的特徴をフレームの特徴に動的に統合し、重要な動的時間的情報を活用することによりセグメンテーション精度を向上させる。
EDSインジェクタはスパースイベントデータとリッチフレーム特徴を効果的に組み合わせ、正確な時間的・空間的な情報アライメントを確保する。
CSFモジュールはこれらの機能を選択的にマージしてセグメンテーション性能を最適化する。
実験結果から,本フレームワークはDDD17-セグ,DSEC-セマンティック,M3ED-セマンティックの各データセットにまたがる最先端の精度を達成するだけでなく,エネルギー消費を大幅に削減し,DSEC-セマンティックデータセットの65%の削減を実現していることがわかった。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。