論文の概要: FUN: A Focal U-Net Combining Reconstruction and Object Detection for Snapshot Spectral Imaging
- arxiv url: http://arxiv.org/abs/2604.27653v1
- Date: Thu, 30 Apr 2026 09:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.027636
- Title: FUN: A Focal U-Net Combining Reconstruction and Object Detection for Snapshot Spectral Imaging
- Title(参考訳): FUN: スナップショット分光画像の再構成と物体検出を併用したU-Net
- Authors: Dahua Gao, Yubo Dong, Anqi Li, Zhenyuan Lin, Ang Gao, Danhua Liu, Guangming Shi,
- Abstract要約: マルチタスク学習によるHSI再構成とオブジェクト検出を共同で行う新しいフレームワークを提案する。
FUNは共有されたU字型のバックボーンを使用し、リコンストラクションは基盤となるスペクトル情報を提供し、検出はセマンティック・アウェアの事前学習をガイドする。
実験の結果、FUNは両方のタスクで最先端のパフォーマンスを実現しており、パラメータは40%少なく、最近の代替よりも30%少なくなっている。
- 参考スコア(独自算出の注目度): 43.580393896524306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional push-broom hyperspectral imaging suffers from slow acquisition speeds, precluding real-time object detection; in contrast, snapshot spectral imaging enables instantaneous hyperspectral images (HSIs) capture, making real-time object detection feasible, yet its potential is often compromised by time-consuming post-capture reconstruction. To address this issue, we propose the Focal U-shaped Network (FUN), a novel end-to-end framework that jointly performs HSI reconstruction and object detection via multi-task learning. FUN employs a shared U-shaped backbone, where reconstruction provides underlying spectral information while detection guides semantic-aware priors learning, facilitating mutually beneficial task interaction. Crucially, we introduce focal modulation, an efficient alternative to self-attention that modulates spatial and spectral features while reducing quadratic computational complexity, enabling a self-attention-free architecture for joint reconstruction and detection. Furthermore, we contribute a new HSI object detection dataset with 8712 annotated objects across 363 HSIs to facilitate evaluation of the proposed method. Experiments demonstrate that FUN achieves state-of-the-art performance on both tasks, using 40% fewer parameters and 30% less computation than recent alternatives, making it promising for future real-time edge deployment. The code and datasets are available: https://github.com/ShawnDong98/FUN.
- Abstract(参考訳): 従来のプッシュ・ブルーム・ハイパースペクトルイメージングは、リアルタイムな物体検出を前にして遅い取得速度に苦しむが、スナップショット・スペクトルイメージングは、瞬時ハイパースペクトル画像(HSI)のキャプチャを可能にし、リアルタイムな物体検出を可能にする。
この問題に対処するために,HSI再構成と複数タスク学習によるオブジェクト検出を共同で行う新しいエンドツーエンドフレームワークであるFocal U-shaped Network (FUN)を提案する。
FUNは共通のU字型のバックボーンを使用し、リコンストラクションは基盤となるスペクトル情報を提供し、検出はセマンティック・アウェアの先行学習をガイドし、相互に有益なタスクインタラクションを促進する。
重要な点として,2次計算の複雑さを低減しつつ空間的・スペクトル的特徴を変調し,共同再建と検出のための自己注意のないアーキテクチャを実現する,自己意識の効率的な代替手段である焦点変調を導入する。
さらに,提案手法の評価を容易にするため,363個のHSIに8712個の注釈付きオブジェクトを用いた新しいHSIオブジェクト検出データセットを寄贈した。
実験では、FUNが両方のタスクで最先端のパフォーマンスを実現し、パラメータを40%削減し、計算処理を30%削減した。
コードとデータセットは、https://github.com/ShawnDong98/FUN.comで入手できる。
関連論文リスト
- EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery [10.339425380819513]
EFSI-DETRは、効率的な意味的特徴強調と動的周波数空間誘導を統合する新しい検出フレームワークである。
VisDrone と CODrone のベンチマーク実験により,我々の EFSI-DETR が実時間効率で最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2026-01-26T15:41:37Z) - Multi-scale Restoration of Missing Data in Optical Time-series Images with Masked Spatial-Temporal Attention Network [0.6675733925327885]
リモートセンシング画像に欠落した値を出力する既存の方法は、補助情報を完全に活用できない。
本稿では,時系列リモートセンシング画像の再構成のためのMS2という,深層学習に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T09:05:05Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Combining Local and Global Pose Estimation for Precise Tracking of
Similar Objects [2.861848675707602]
類似・非テクスチャオブジェクトに対する多目的6D検出・追跡パイプラインを提案する。
合成画像のみを訓練した新しいネットワークアーキテクチャは、複数のオブジェクトの同時ポーズ推定を可能にする。
建設現場における実際のAR支援アプリケーションにおいて,システムがどのように利用できるかを示す。
論文 参考訳(メタデータ) (2022-01-31T14:36:57Z) - Should I Look at the Head or the Tail? Dual-awareness Attention for
Few-Shot Object Detection [20.439719842851744]
両方向の空間的関係が支持とクエリーのイメージを横断して捉える,Dual-Awareness-Attention (DAnA) を提案する。
我々のDAnAコンポーネントは、既存の様々なオブジェクト検出ネットワークに適用可能であり、特定のセマンティクスに注意を払ってFSOD性能を向上させる。
実験結果は、DAnAがCOCOベンチマークで(48%および125%比較的)オブジェクト検出性能を大幅に向上させることを示しています。
論文 参考訳(メタデータ) (2021-02-24T09:17:27Z) - Real Time Multi-Class Object Detection and Recognition Using Vision
Augmentation Algorithm [0.0]
学習課題における畳み込みレベルが異なるマルチスケール特徴を抽出するために,アップサンプリングとスキップ接続を用いた新しいリアルタイム検出アルゴリズムを提案する。
モデルの検出精度は、最先端モデルよりも高く、高速であることが示されている。
論文 参考訳(メタデータ) (2020-03-17T01:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。