論文の概要: DGSSM: Diffusion guided state-space models for multimodal salient object detection
- arxiv url: http://arxiv.org/abs/2604.17585v1
- Date: Sun, 19 Apr 2026 19:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.594563
- Title: DGSSM: Diffusion guided state-space models for multimodal salient object detection
- Title(参考訳): DGSSM:多モードサリアン物体検出のための拡散誘導状態空間モデル
- Authors: Suklav Ghosh, Arijit Sur, Pinaki Mitra,
- Abstract要約: 厳密なオブジェクト検出には、長距離コンテキスト依存ときめ細かい構造の詳細の両方をモデル化する必要がある。
近年のMambaベースの状態空間アプローチは、効率的なグローバル推論を可能にするが、正確なオブジェクト境界の回復に苦慮することが多い。
本稿では,拡散誘導状態空間(Mamba)フレームワークであるDGSSMを提案する。
- 参考スコア(独自算出の注目度): 9.56476470128145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Salient object detection (SOD) requires modeling both long-range contextual dependencies and fine-grained structural details, which remains challenging for convolutional, transformer-based, and Mamba-based state space models. While recent Mamba-based state space approaches enable efficient global reasoning, they often struggle to recover precise object boundaries. In contrast, diffusion models capture strong structural priors through iterative denoising, but their use in discriminative dense prediction is still limited due to computational cost and integration challenges. In this work, we propose DGSSM, a diffusion-guided state space (Mamba) framework that formulates multimodal salient object detection as a progressive denoising process. The framework integrates diffusion structural priors with multi-scale state space encoding, adaptive saliency prompting, and an iterative Mamba diffusion refinement mechanism to improve boundary accuracy. A boundary-aware refinement head and self-distillation strategy further enhance spatial coherence and feature consistency. Extensive experiments on 13 public benchmarks across RGB, RGB-D, and RGB-T settings demonstrate that DGSSM consistently outperforms state-of-the-art methods across multiple evaluation metrics while maintaining a compact model size. These results suggest that diffusion-guided state space modeling is an effective and generalizable paradigm for multimodal dense prediction tasks.
- Abstract(参考訳): 健全なオブジェクト検出(SOD)には、長距離のコンテキスト依存と微細な構造の詳細の両方をモデル化する必要があるが、これは畳み込み、トランスフォーマーベース、およびマンバベースの状態空間モデルでは依然として難しい。
最近のMambaベースの状態空間アプローチは、効率的なグローバル推論を可能にするが、しばしば正確なオブジェクト境界を回復するのに苦労する。
対照的に、拡散モデルは反復的偏微分によって強い構造的先行を捉えるが、計算コストと積分の難しさのため、識別的密接な予測におけるそれらの使用は依然として制限されている。
本研究では,拡散誘導状態空間(Mamba)フレームワークであるDGSSMを提案する。
このフレームワークは拡散構造前駆体を多スケール状態空間符号化、適応的サリエンシプロセッシング、および反復的マンバ拡散微細化機構と統合し、境界精度を向上させる。
境界対応精製ヘッドと自己蒸留戦略により空間コヒーレンスと特徴整合性がさらに向上する。
RGB、RGB-D、RGB-T設定にわたる13の公開ベンチマークに関する大規模な実験により、DGSSMは、コンパクトなモデルサイズを維持しながら、複数の評価指標にわたる最先端メソッドを一貫して上回ることを示した。
これらの結果は拡散誘導状態空間モデリングが多モード密集予測タスクの有効かつ一般化可能なパラダイムであることを示唆している。
関連論文リスト
- Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection [61.36976558603528]
本稿では,Segment Anything Model(SAM)のためのモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には,データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとのインタラクションを通じて,マルチモーダル学習をモデル化する。
さらに,微粒なプロンプトキューを組み込むことで,粗い予測をキャリブレーションする軽量マスクリファインモジュールを導入する。
論文 参考訳(メタデータ) (2026-04-14T07:13:28Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。