論文の概要: MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text
Removal
- arxiv url: http://arxiv.org/abs/2211.06565v1
- Date: Sat, 12 Nov 2022 04:04:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:57:34.581599
- Title: MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text
Removal
- Title(参考訳): MSLKANet:シーンテキスト削除のための大規模カーネル注意ネットワーク
- Authors: Guangtao Lyu (School of Computer Science and Artificial Intelligence,
Wuhan University of Technology, China)
- Abstract要約: シーンテキストの除去は、テキストを削除し、自然画像中の知覚的に妥当な背景情報で領域を埋めることを目的としている。
ディープラーニングの発展に伴い、従来の手法は大幅に改善されている。
フル画像のシーンテキスト除去のためのシングルステージマルチスケールネットワークMSLKANetを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text removal aims to remove the text and fill the regions with
perceptually plausible background information in natural images. It has
attracted increasing attention due to its various applications in privacy
protection, scene text retrieval, and text editing. With the development of
deep learning, the previous methods have achieved significant improvements.
However, most of the existing methods seem to ignore the large perceptive
fields and global information. The pioneer method can get significant
improvements by only changing training data from the cropped image to the full
image. In this paper, we present a single-stage multi-scale network MSLKANet
for scene text removal in full images. For obtaining large perceptive fields
and global information, we propose multi-scale large kernel attention (MSLKA)
to obtain long-range dependencies between the text regions and the backgrounds
at various granularity levels. Furthermore, we combine the large kernel
decomposition mechanism and atrous spatial pyramid pooling to build a large
kernel spatial pyramid pooling (LKSPP), which can perceive more valid pixels in
the spatial dimension while maintaining large receptive fields and low cost of
computation. Extensive experimental results indicate that the proposed method
achieves state-of-the-art performance on both synthetic and real-world datasets
and the effectiveness of the proposed components MSLKA and LKSPP.
- Abstract(参考訳): シーンのテキストの除去は、テキストを取り除き、自然画像の知覚的に妥当な背景情報で領域を満たすことを目的としている。
プライバシー保護、シーンテキストの検索、テキスト編集といった様々な用途で注目を集めている。
ディープラーニングの発展に伴い、従来の手法は大幅に改善されている。
しかし、既存の手法のほとんどは、大きな知覚的分野やグローバルな情報を無視しているようである。
先駆的な手法は、収穫された画像から全画像へのトレーニングデータを変更するだけで、大幅に改善できる。
本稿では,全画像におけるシーンテキスト除去のためのマルチスケールネットワークmslkanetを提案する。
そこで本研究では,テキスト領域と背景の長距離依存性をさまざまな粒度レベルで把握するためのマルチスケール大規模カーネルアテンション(MSLKA)を提案する。
さらに,大きなカーネル分解機構とアトラスな空間ピラミッドプールを組み合わせることで,大きな受容場と計算コストを低く保ちながら,より有効な空間空間ピラミッドプール(LKSPP)を構築する。
実験結果から,提案手法は,合成および実世界の両方のデータセット上での最先端性能と,提案手法のMSLKAとLKSPPの有効性が示唆された。
関連論文リスト
- xT: Nested Tokenization for Larger Context in Large Images [84.10884255952409]
我々は、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのためのシンプルなフレームワークであるxTを紹介する。
我々は、真の大きな画像を理解する視覚モデルの能力を正確に反映したベンチマークデータセットのセットを選択する。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - On the Effect of Image Resolution on Semantic Segmentation [27.115235051091663]
本研究では,高分解能セグメンテーションを直接生成できるモデルが,より複雑なシステムの性能と一致することを示す。
提案手法は,ボトムアップ情報伝搬手法を様々なスケールで活用する。
先進的なセマンティックセグメンテーションデータセットを用いて,本手法を厳格に検証した。
論文 参考訳(メタデータ) (2024-02-08T04:21:30Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z) - A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。
本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。
我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文 参考訳(メタデータ) (2020-07-08T16:49:25Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。