論文の概要: Vision Mamba for Permeability Prediction of Porous Media
- arxiv url: http://arxiv.org/abs/2510.14516v1
- Date: Thu, 16 Oct 2025 10:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.808787
- Title: Vision Mamba for Permeability Prediction of Porous Media
- Title(参考訳): 多孔質媒体の透磁率予測のためのビジョンマンバ
- Authors: Ali Kashefi, Tapan Mukerji,
- Abstract要約: 三次元多孔質媒体の透過性を予測するためのバックボーンとしてVision Mambaを用いたニューラルネットワークを導入する。
三次元多孔質媒体の透磁率予測におけるViTとCNNに対するVision Mambaの利点を実演する。
- 参考スコア(独自算出の注目度): 1.3063093054280948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Mamba has recently received attention as an alternative to Vision Transformers (ViTs) for image classification. The network size of Vision Mamba scales linearly with input image resolution, whereas ViTs scale quadratically, a feature that improves computational and memory efficiency. Moreover, Vision Mamba requires a significantly smaller number of trainable parameters than traditional convolutional neural networks (CNNs), and thus, they can be more memory efficient. Because of these features, we introduce, for the first time, a neural network that uses Vision Mamba as its backbone for predicting the permeability of three-dimensional porous media. We compare the performance of Vision Mamba with ViT and CNN models across multiple aspects of permeability prediction and perform an ablation study to assess the effects of its components on accuracy. We demonstrate in practice the aforementioned advantages of Vision Mamba over ViTs and CNNs in the permeability prediction of three-dimensional porous media. We make the source code publicly available to facilitate reproducibility and to enable other researchers to build on and extend this work. We believe the proposed framework has the potential to be integrated into large vision models in which Vision Mamba is used instead of ViTs.
- Abstract(参考訳): Vision Mamba は最近、画像分類のための Vision Transformers (ViTs) の代替として注目されている。
Vision Mambaのネットワークサイズは入力画像の解像度で線形にスケールするのに対し、ViTsは2次的にスケールする。
さらに、Vision Mambaは従来の畳み込みニューラルネットワーク(CNN)よりもはるかに少ないトレーニング可能なパラメータを必要とするため、よりメモリ効率がよい。
これらの特徴から、3次元多孔質媒体の透過性を予測するためにVision Mambaをバックボーンとして使用するニューラルネットワークを初めて導入した。
我々はVision Mamba と ViT および CNN モデルの性能を透水率予測の様々な側面で比較し、その成分が精度に与える影響を評価するアブレーション研究を行う。
三次元多孔質媒体の透磁率予測におけるViTとCNNに対するVision Mambaの利点を実演する。
私たちは、再現性を促進するためにソースコードを公開し、他の研究者がこの作業を構築および拡張できるようにします。
提案するフレームワークは、ViTの代わりにVision Mambaが使用される大きなビジョンモデルに統合される可能性があると考えている。
関連論文リスト
- VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation [25.60289758013904]
ビジョントランスフォーマー(ViT)とステートスペースモデル(SSM)の最近の進歩は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の優位性に挑戦している。
我々は,CNNと多方向Mamba SSMの強度を統合した,新しいビジョンバックボーンであるtextitVCMambaを紹介する。
VCMamba-BはImageNet-1Kで82.6%の精度を実現し、PlainMamba-L3を0.3%、パラメータを37%、Vision GNN-Bを0.3%、パラメータを64%上回った。
論文 参考訳(メタデータ) (2025-09-04T21:32:27Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。