論文の概要: Interactive State Space Model with Cross-Modal Local Scanning for Depth Super-Resolution
- arxiv url: http://arxiv.org/abs/2605.11934v1
- Date: Tue, 12 May 2026 10:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.804207
- Title: Interactive State Space Model with Cross-Modal Local Scanning for Depth Super-Resolution
- Title(参考訳): クロスモーダル局所走査による高分解能超解像の対話型状態空間モデル
- Authors: Chen Wu, Ling Wang, Zhuoran Zheng, Xiangyu Chen, Jingyuan Xia, Weidong Jiang, Jiantao Zhou,
- Abstract要約: 誘導深度超解像(GDSR)は、HR RGBガイダンスを用いてLR入力からHR深度マップを再構成する。
既存の手法は各モードを独立にモデル化するか、2次複雑さを持つ計算コストの高い注意機構に依存している。
本稿では,対話型状態空間モデルを中心とした新しいGDSRフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.94624454006905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guided depth super-resolution (GDSR) reconstructs HR depth maps from LR inputs with HR RGB guidance. Existing methods either model each modality independently or rely on computationally expensive attention mechanisms with quadratic complexity, hindering the establishment of efficient and semantically interactive joint representations. In this paper, we observe that feature maps from different modalities exhibit semantic-level correlations during feature extraction. This motivates us to develop a more flexible approach enabling dense, semantically-aware deep interactions between modalities. To this end, we propose a novel GDSR framework centered around the Interactive State Space Model. Specifically, we design a cross-modal local scanning mechanism that enables fine-grained semantic interactions between RGB and depth features. Leveraging the Mamba architecture, our framework achieves global modeling with linear complexity. Furthermore, a cross-modal matching transform module is introduced to enhance interactive modeling quality by utilizing representative features from both modalities. Extensive experiments demonstrate competitive performance against state-of-the-art methods.
- Abstract(参考訳): 誘導深度超解像(GDSR)は、HR RGBガイダンスを用いてLR入力からHR深度マップを再構成する。
既存の手法は、それぞれのモダリティを独立にモデル化するか、2次複雑さを持つ計算コストのかかる注意機構に依存し、効率的で意味論的に対話的な関節表現の確立を妨げる。
本稿では,異なるモダリティの特徴写像が特徴抽出中に意味レベルの相関を示すことを観察する。
これは、モダリティ間の密集的で意味論的に認識された深い相互作用を可能にする、より柔軟なアプローチを開発する動機となります。
そこで本研究では,対話型状態空間モデルを中心とした新しいGDSRフレームワークを提案する。
具体的には,RGBと奥行き特徴の微粒なセマンティックな相互作用を可能にするクロスモーダルな局所走査機構を設計する。
Mambaアーキテクチャを活用することで、我々のフレームワークは線形複雑度でグローバルなモデリングを実現する。
さらに、両モードの代表的な特徴を活用して、インタラクティブなモデリング品質を向上させるために、クロスモーダルマッチング変換モジュールを導入する。
大規模な実験は最先端の手法に対する競争性能を示す。
関連論文リスト
- DIFF-MF: A Difference-Driven Channel-Spatial State Space Model for Multi-Modal Image Fusion [51.07069814578009]
マルチモーダル画像融合は、複数のソース画像から補完的な情報を統合して、リッチなコンテンツで高品質な融合画像を生成することを目的としている。
マルチモーダル画像融合のための差動駆動型チャネル空間空間モデルDIFF-MFを提案する。
本手法は,視覚的品質と定量的評価の両方において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2026-01-09T05:26:54Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared
Cross-modality Person Re-identification [18.152310122348393]
RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違が原因で難しい課題である。
我々は,局所的・グローバル的特徴融合(df2)モジュールを,局所的特徴とグローバル的特徴の区別に着目して提案する。
人物画像からグローバルな特徴間の関係をさらに掘り下げるために,親和性モデリング(AM)モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-01T03:12:56Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。