論文の概要: MambaHash: Visual State Space Deep Hashing Model for Large-Scale Image Retrieval
- arxiv url: http://arxiv.org/abs/2506.16353v1
- Date: Thu, 19 Jun 2025 14:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.115282
- Title: MambaHash: Visual State Space Deep Hashing Model for Large-Scale Image Retrieval
- Title(参考訳): MambaHash: 大規模画像検索のためのVisual State Space Deep Hashing Model
- Authors: Chao He, Hongxi Wei,
- Abstract要約: 線形時間複雑性を持つビジョン・マンバは、研究者から広く注目を集めている。
我々はMambaHashと呼ばれる視覚状態空間ハッシュモデルを提案する。
広範に使用されている3つのデータセットに関する総合的な実験を行った。
- 参考スコア(独自算出の注目度): 0.3880517371454968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep image hashing aims to enable effective large-scale image retrieval by mapping the input images into simple binary hash codes through deep neural networks. More recently, Vision Mamba with linear time complexity has attracted extensive attention from researchers by achieving outstanding performance on various computer tasks. Nevertheless, the suitability of Mamba for large-scale image retrieval tasks still needs to be explored. Towards this end, we propose a visual state space hashing model, called MambaHash. Concretely, we propose a backbone network with stage-wise architecture, in which grouped Mamba operation is introduced to model local and global information by utilizing Mamba to perform multi-directional scanning along different groups of the channel. Subsequently, the proposed channel interaction attention module is used to enhance information communication across channels. Finally, we meticulously design an adaptive feature enhancement module to increase feature diversity and enhance the visual representation capability of the model. We have conducted comprehensive experiments on three widely used datasets: CIFAR-10, NUS-WIDE and IMAGENET. The experimental results demonstrate that compared with the state-of-the-art deep hashing methods, our proposed MambaHash has well efficiency and superior performance to effectively accomplish large-scale image retrieval tasks. Source code is available https://github.com/shuaichaochao/MambaHash.git
- Abstract(参考訳): ディープイメージハッシュは、入力イメージをディープニューラルネットワークを介して単純なバイナリハッシュコードにマッピングすることで、効果的に大規模な画像検索を可能にすることを目的としている。
最近では、線形時間複雑性を持つVision Mambaは、様々なコンピュータタスクにおいて優れたパフォーマンスを達成することによって、研究者から大きな注目を集めている。
それでも、大規模な画像検索タスクには、Mambaの適性を検討する必要がある。
この目的のために我々はMambaHashと呼ばれる視覚状態空間ハッシュモデルを提案する。
具体的には,各チャネルの異なるグループに沿った多方向走査を行うために,Mambaを用いて局所的およびグローバルな情報をモデル化するためにグループ化されたMamba演算を導入した,ステージワイドアーキテクチャのバックボーンネットワークを提案する。
その後、チャネル間の情報通信を強化するために、提案するチャネルインタラクションアテンションモジュールが使用される。
最後に,適応的な特徴拡張モジュールを慎重に設計し,特徴の多様性を高め,モデルの視覚的表現能力を向上する。
我々はCIFAR-10, NUS-WIDE, ImagingNETの3つの広く利用されているデータセットについて総合的な実験を行った。
実験の結果,提案手法は最先端のディープハッシュ法と比較して,大規模な画像検索タスクを効果的に行うための効率と性能が良好であることがわかった。
ソースコードはhttps://github.com/shuaichaochao/MambaHash.gitで入手できる。
関連論文リスト
- DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image Retrieval [0.3880517371454968]
ハイブリッドハッシュ(HybridHash)と呼ばれるハイブリッド畳み込み型・自己注意型ディープハッシュ法を提案する。
我々はCIFAR-10, NUS-WIDE, ImagingNETの3つの広く利用されているデータセットについて総合的な実験を行った。
実験の結果,提案手法は最先端の深層ハッシュ法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-13T07:45:20Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。