論文の概要: Sparse Hypergraph-Enhanced Frame-Event Object Detection with Fine-Grained MoE
- arxiv url: http://arxiv.org/abs/2604.11140v1
- Date: Mon, 13 Apr 2026 07:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.412977
- Title: Sparse Hypergraph-Enhanced Frame-Event Object Detection with Fine-Grained MoE
- Title(参考訳): 微細MoEを用いたスパースハイパーグラフ強調フレームイベント検出
- Authors: Wei Bao, Yuehan Wang, Tianhang Zhou, Siqi Li, Yue Gao,
- Abstract要約: 高性能かつ効率的な検出フレームワークであるHyper-FEODを提案する。
S-HCF(Sparse Hypergraph-enhanced Cross-Modal Fusion)を紹介する。
第2に、異なる画像領域の多様な意味的要求に対応するために、FG-MoE拡張モジュールを設計する。
- 参考スコア(独自算出の注目度): 15.035274942751387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating frame-based RGB cameras with event streams offers a promising solution for robust object detection under challenging dynamic conditions. However, the inherent heterogeneity and data redundancy of these modalities often lead to prohibitive computational overhead or suboptimal feature fusion. In this paper, we propose Hyper-FEOD, a high-performance and efficient detection framework, which synergistically optimizes multi-modal interaction through two core components. First, we introduce Sparse Hypergraph-enhanced Cross-Modal Fusion (S-HCF), which leverages the inherent sparsity of event streams to construct an event-guided activity map. By performing high-order hypergraph modeling exclusively on selected motion-critical sparse tokens, S-HCF captures complex non-local dependencies between RGB and event data while overcoming the traditional complexity bottlenecks of hypergraph computation. Second, we design a Fine-Grained Mixture of Experts (FG-MoE) Enhancement module to address the diverse semantic requirements of different image regions. This module employs specialized hypergraph experts tailored for object boundaries, internal textures, and backgrounds, utilizing a pixel-level spatial gating mechanism to adaptively route and enhance features. Combined with a load-balancing loss and zero-initialization strategy, FG-MoE ensures stable training and precise feature refinement without disrupting the pre-trained backbone's distribution. Experimental results on mainstream RGB-Event benchmarks demonstrate that Hyper-FEOD achieves a superior accuracy-efficiency trade-off, outperforming state-of-the-art methods while maintaining a lightweight footprint suitable for real-time edge deployment.
- Abstract(参考訳): フレームベースのRGBカメラとイベントストリームを統合することで、困難な動的条件下での堅牢なオブジェクト検出に有望なソリューションを提供する。
しかし、これらのモダリティの固有の不均一性とデータ冗長性は、しばしば計算上のオーバーヘッドや準最適特徴融合を引き起こす。
本稿では,2つのコアコンポーネント間のマルチモーダルインタラクションを相乗的に最適化する高性能かつ効率的な検出フレームワークHyper-FEODを提案する。
まず,Sparse Hypergraph-enhanced Cross-Modal Fusion (S-HCF)を紹介する。
S-HCFは、選択された動きクリティカルなスパーストークンにのみ、高次ハイパーグラフモデリングを実行することにより、RGBとイベントデータの間の複雑な非局所的な依存関係をキャプチャし、ハイパーグラフ計算の従来の複雑さのボトルネックを克服する。
第2に、異なる画像領域の多様な意味的要求に対応するために、FG-MoE拡張モジュールを設計する。
このモジュールは、オブジェクト境界、内部テクスチャ、背景用に調整された特殊ハイパーグラフの専門家を使用し、ピクセルレベルの空間的ゲーティング機構を使用して、特徴を適応的にルーティングし、拡張する。
負荷分散損失とゼロ初期化戦略を組み合わせることで、FG-MoEはトレーニング済みのバックボーンの分布を乱すことなく、安定したトレーニングと正確な特徴改善を実現する。
主流のRGB-Eventベンチマークの実験結果から、Hyper-FEODは、リアルタイムエッジデプロイメントに適した軽量なフットプリントを維持しつつ、最先端の手法よりも優れた精度と効率のトレードオフを実現していることが示された。
関連論文リスト
- Spatial Orthogonal Refinement for Robust RGB-Event Visual Object Tracking [8.019596736149834]
空間直交微細化(SOR)に基づくロバストなRGBイベント追跡のためのフレームワークであるSOR-Trackを提案する。
大規模なFE108ベンチマークの実験は、SOR-Trackが既存のフュージョンベースのトラッカーを一貫して上回っていることを示している。
その単純さにもかかわらず、提案手法はマルチモーダルな特徴アライメントとテクスチャの整合に対する原理的かつ物理的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-03-29T23:54:31Z) - Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios [23.41380544271609]
従来のRGBカメラのダイナミックレンジは、大域的なコントラストを減少させ、高周波の詳細が失われる。
そこで本研究では,光の難易度を最適化した移動キュー融合ネットワーク(MCFNet)を提案する。
MCFNetは、様々な低照度および高速移動トラフィックシナリオにおいて、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-14T14:48:21Z) - Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。