論文の概要: TextMamba: Scene Text Detector with Mamba
- arxiv url: http://arxiv.org/abs/2512.06657v1
- Date: Sun, 07 Dec 2025 05:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.452599
- Title: TextMamba: Scene Text Detector with Mamba
- Title(参考訳): TextMamba:Mambaを使ったシーンテキスト検出器
- Authors: Qiyan Zhao, Yue Yan, Da-Han Wang,
- Abstract要約: 本稿では,Mambaをベースとした新しいシーンテキスト検出手法を提案する。
我々はTop_kアルゴリズムを採用し、キー情報を明示的に選択し、Mambaモデリングにおける無関係情報の干渉を低減する。
提案手法は,様々なベンチマークにおいて,最先端または競争性能を実現する。
- 参考スコア(独自算出の注目度): 6.992080935409672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In scene text detection, Transformer-based methods have addressed the global feature extraction limitations inherent in traditional convolution neural network-based methods. However, most directly rely on native Transformer attention layers as encoders without evaluating their cross-domain limitations and inherent shortcomings: forgetting important information or focusing on irrelevant representations when modeling long-range dependencies for text detection. The recently proposed state space model Mamba has demonstrated better long-range dependencies modeling through a linear complexity selection mechanism. Therefore, we propose a novel scene text detector based on Mamba that integrates the selection mechanism with attention layers, enhancing the encoder's ability to extract relevant information from long sequences. We adopt the Top\_k algorithm to explicitly select key information and reduce the interference of irrelevant information in Mamba modeling. Additionally, we design a dual-scale feed-forward network and an embedding pyramid enhancement module to facilitate high-dimensional hidden state interactions and multi-scale feature fusion. Our method achieves state-of-the-art or competitive performance on various benchmarks, with F-measures of 89.7\%, 89.2\%, and 78.5\% on CTW1500, TotalText, and ICDAR19ArT, respectively. Codes will be available.
- Abstract(参考訳): シーンテキスト検出では、Transformerベースの手法は、従来の畳み込みニューラルネットワークに基づく手法に固有のグローバルな特徴抽出制限に対処している。
しかし、ほとんどの場合、トランスフォーマーのアテンション層をエンコーダとしてネイティブに頼り、ドメイン間の制限や固有の欠点を評価せずに、重要な情報を忘れたり、テキスト検出のために長距離依存関係をモデリングする際に無関係な表現にフォーカスする。
最近提案された状態空間モデルMambaは、線形複雑性選択機構によるより優れた長距離依存性モデリングを実証した。
そこで本研究では,Mambaをベースとした新しいシーンテキスト検出手法を提案する。
我々はTop\_kアルゴリズムを採用し、キー情報を明示的に選択し、Mambaモデリングにおける無関係情報の干渉を低減する。
さらに,2次元のフィードフォワードネットワークと埋め込みピラミッド拡張モジュールを設計し,高次元の隠れ状態相互作用とマルチスケール特徴融合を容易にする。
本手法は, CTW1500, TotalText, ICDAR19ArTにおいて, 89.7\%, 89.2\%, 78.5\%のF測定値を用いて, 各種ベンチマークにおける最先端および競争性能を実現する。
コードは利用可能。
関連論文リスト
- CSFMamba: Cross State Fusion Mamba Operator for Multimodal Remote Sensing Image Classification [12.959829835589453]
我々はCross State Fusion Mamba (Camba) Networkを提案する。
具体的には、まず、マンバ構造のニーズに応じて、リモートセンシング画像情報の事前処理モジュールを設計する。
第二に、Mamba演算子に基づくクロスステートモジュールは、2つのモードの特徴を完全に融合するように創造的に設計されている。
論文 参考訳(メタデータ) (2025-08-31T03:08:34Z) - AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection [29.004019252136565]
本稿では,グローバルな文脈情報の統合と微粒な局所的詳細情報の抽出のバランスをとる新しいモデルであるAtrousMambaを提案する。
AWVSS(Atrous window scan visual state space)モジュールを活用することで、バイナリチェンジ検出(BCD)とセマンティックチェンジ検出(SCD)のためのエンド・ツー・エンドのMambaベースのフレームワークを設計する。
6つのベンチマークデータセットの実験結果は、提案フレームワークが既存のCNNベース、Transformerベース、Mambaベースの手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-07-22T02:36:16Z) - MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms [2.4775350526606355]
視覚言語位置認識(VLVPR)は、画像から自然言語記述を組み込むことで、ロボットのローカライズ性能を向上させる。
言語情報を利用することで、VLVPRはロボットの位置マッチングを指示し、視覚のみに依存する制約を克服する。
本稿では,MambaPlace と呼ばれる相互接続型位置認識フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T12:06:11Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。