論文の概要: WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition
- arxiv url: http://arxiv.org/abs/2510.21079v1
- Date: Fri, 24 Oct 2025 01:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.350183
- Title: WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition
- Title(参考訳): WaveSeg: 高周波先行およびマンバ駆動スペクトル分解による分割精度の向上
- Authors: Guoan Xu, Yang Xiao, Wenjing Jia, Guangwei Gao, Guo-Jun Qi, Chia-Wen Lin,
- Abstract要約: 本稿では,空間およびウェーブレット領域の機能改善を共同で最適化する新しいデコーダアーキテクチャであるWaveSegを提案する。
高周波成分は、まず入力画像から、境界の詳細を強化するために明示的な先行として学習される。
標準ベンチマークの実験では、Mambaベースの注目に先立ってウェーブレット-ドメイン周波数を利用するWaveSegが、常に最先端のアプローチより優れていることが示されている。
- 参考スコア(独自算出の注目度): 61.3530659856013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent semantic segmentation networks heavily rely on powerful pretrained encoders, most employ simplistic decoders, leading to suboptimal trade-offs between semantic context and fine-grained detail preservation. To address this, we propose a novel decoder architecture, WaveSeg, which jointly optimizes feature refinement in spatial and wavelet domains. Specifically, high-frequency components are first learned from input images as explicit priors to reinforce boundary details at early stages. A multi-scale fusion mechanism, Dual Domain Operation (DDO), is then applied, and the novel Spectrum Decomposition Attention (SDA) block is proposed, which is developed to leverage Mamba's linear-complexity long-range modeling to enhance high-frequency structural details. Meanwhile, reparameterized convolutions are applied to preserve low-frequency semantic integrity in the wavelet domain. Finally, a residual-guided fusion integrates multi-scale features with boundary-aware representations at native resolution, producing semantically and structurally rich feature maps. Extensive experiments on standard benchmarks demonstrate that WaveSeg, leveraging wavelet-domain frequency prior with Mamba-based attention, consistently outperforms state-of-the-art approaches both quantitatively and qualitatively, achieving efficient and precise segmentation.
- Abstract(参考訳): 最近のセマンティックセグメンテーションネットワークは、強力な事前訓練されたエンコーダに大きく依存しているが、ほとんどの場合、単純化されたデコーダを使用し、セマンティックコンテキストときめ細かなディテール保存の間の準最適トレードオフをもたらす。
そこで本稿では,空間およびウェーブレット領域の機能改善を共同で最適化する,新しいデコーダアーキテクチャであるWaveSegを提案する。
特に、高周波成分は、最初に入力画像から、初期境界の詳細を補強する明示的な先行として学習される。
マルチスケール融合機構であるデュアルドメイン操作(DDO)を適用し,新しいスペクトル分解注意ブロック(SDA)を提案する。
一方、ウェーブレット領域における低周波意味整合性を維持するために、再パラメータ化畳み込みを適用する。
最後に、残留誘導融合は、ネイティブ解像度における境界認識表現とマルチスケール特徴を統合し、意味的かつ構造的にリッチな特徴写像を生成する。
標準ベンチマークにおける広範囲な実験により、WaveSegは、Mambaベースの注目に先立ってウェーブレット-ドメイン周波数を活用し、常に最先端のアプローチを定量的かつ質的に上回り、効率的かつ正確なセグメンテーションを実現する。
関連論文リスト
- A Spatial-Spectral-Frequency Interactive Network for Multimodal Remote Sensing Classification [45.80836671298513]
本稿では,空間,スペクトル,周波数領域にまたがる相互融合モジュールを統合した空間-スペクトル-周波数相互作用ネットワーク(S$2$Fin)を提案する。
ラベル付きデータに制限のある4つのベンチマークマルチモーダルデータセットの実験は、S$2$Finが優れた分類を行い、最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-10-06T09:33:35Z) - Missing Fine Details in Images: Last Seen in High Frequencies [17.95197409468585]
本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器の忠実度ギャップを橋渡しし,実写画像合成における周波数認識最適化の重要性を強調する。
論文 参考訳(メタデータ) (2025-09-05T18:49:08Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling [50.8215545241128]
私たちはaを提案します。
境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。
粗提案発電機と微細階層確率発生装置
モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
論文 参考訳(メタデータ) (2025-08-04T02:41:09Z) - Efficient Dual-domain Image Dehazing with Haze Prior Perception [26.57698394898644]
トランスフォーマーベースのモデルは、シングルイメージのデハージングにおいて強力なグローバルモデリング能力を示すが、その高い計算コストはリアルタイム適用性を制限する。
そこで我々はDGFDNet(Dark Channel Guided Frequency-aware Dehazing Network)を提案する。
4つのベンチマークハウズデータセットの実験により、DGFDNetは、より優れた堅牢性とリアルタイム効率で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-07-15T06:56:56Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [49.37555541088792]
位相振幅デカップリング(PAD)は、位相(モダリティ共有)と振幅(モダリティ補完)を分離する周波数対応のフレームワークである。
この研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。