論文の概要: Mask-aware inference with State-Space Models
- arxiv url: http://arxiv.org/abs/2603.04568v1
- Date: Wed, 04 Mar 2026 19:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.962655
- Title: Mask-aware inference with State-Space Models
- Title(参考訳): 状態空間モデルを用いたマスク認識推論
- Authors: Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo, Ivan Huerta,
- Abstract要約: これは、部分的な操作の原則をMambaのバックボーンに移植する新しいアーキテクチャコンポーネントです。
提案手法の有効性と一般化性について,不確定データを用いた深度処理,画像インペインティング,分類の課題について述べる。
- 参考スコア(独自算出の注目度): 2.0299248281970956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world computer vision tasks, such as depth completion, must handle inputs with arbitrarily shaped regions of missing or invalid data. For Convolutional Neural Networks (CNNs), Partial Convolutions solved this by a mask-aware re-normalization conditioned only on valid pixels. Recently, State Space Models (SSMs) like Mamba have emerged, offering high performance with linear complexity. However, these architectures lack an inherent mechanism for handling such arbitrarily shaped invalid data at inference time. To bridge this gap, we introduce Partial Vision Mamba (PVM), a novel architectural component that ports the principles of partial operations to the Mamba backbone. We also define a series of rules to design architectures using PVM. We show the efficacy and generalizability of our approach in the tasks of depth completion, image inpainting, and classification with invalid data.
- Abstract(参考訳): ディープ・コンプリートのような現実世界のコンピュータビジョンタスクの多くは、任意の形状の欠落や無効なデータの入力を処理しなければならない。
畳み込みニューラルネットワーク(CNN)では、部分畳み込み(Partial Convolutions)は、有効なピクセルのみを条件としたマスク対応の再正規化によってこれを解決した。
最近、Mambaのようなステートスペースモデル(SSM)が登場し、線形複雑度の高いハイパフォーマンスを実現している。
しかし、これらのアーキテクチャは、任意の形の不正データを推論時に処理するための固有のメカニズムを欠いている。
このギャップを埋めるために、部分的な操作の原則をMambaのバックボーンに移植する新しいアーキテクチャコンポーネントであるPartial Vision Mamba (PVM)を紹介します。
また、PVMを使ってアーキテクチャを設計するための一連のルールを定義します。
提案手法の有効性と一般化性について,不確定データを用いた深度処理,画像インペインティング,分類の課題について述べる。
関連論文リスト
- DINO-Tok: Adapting DINO for Visual Tokenizers [52.194754463297706]
DINO-Tokは、階層的表現を情報完全潜在空間に統一する視覚トークンである。
ImageNetでは、DINO-Tokは最先端の再構築性能を達成し、自動エンコーディングでは28.54 PSNR、VQベースのモデリングでは23.98 PSNRに達した。
論文 参考訳(メタデータ) (2025-11-25T18:00:00Z) - InceptionMamba: An Efficient Hybrid Network with Large Band Convolution and Bottleneck Mamba [21.47782205082816]
InceptionNeXtは、画像分類と多くの下流タスクにおいて優れた競争力を示している。
InceptionNeXtは、平行1次元のストリップ畳み込みに基づいて構築され、異なる次元に沿って空間的依存関係をキャプチャする限られた能力に悩まされている。
本稿では,これらの制約を克服するために,InceptionMambaと呼ばれる新しいバックボーンアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:31:05Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Mamba-UIE: Enhancing Underwater Images with Physical Model Constraint [6.2101866921752285]
水中画像強調(UIE)では、畳み込みニューラルネットワーク(CNN)は長距離依存関係のモデリングに固有の制限がある。
本研究では,物理モデルによる制約に基づく水中画像強調フレームワークであるMamba-UIEを提案する。
提案したMamba-UIEは既存の最先端手法よりも優れており,PSNRは27.13で,SSIMは0.93である。
論文 参考訳(メタデータ) (2024-07-27T13:22:10Z) - VMambaMorph: a Multi-Modality Deformable Image Registration Framework based on Visual State Space Model with Cross-Scan Module [19.5487294104318]
本稿では,VMambaMorphという画像登録機能を備えたVMambaの探索について紹介する。
新たなハイブリッドVMamba-CNNネットワークは、3D画像登録用に特別に設計されている。
我々は,VMambaMorphを公開ベンチマーク脳MR-CT登録データセットを用いて検証し,その性能を現在の最先端手法と比較した。
論文 参考訳(メタデータ) (2024-04-07T23:10:26Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。