Fugu-MT 論文翻訳(概要): MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text Removal

論文の概要: MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text Removal

arxiv url: http://arxiv.org/abs/2211.06565v1
Date: Sat, 12 Nov 2022 04:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 17:57:34.581599
Title: MSLKANet: A Multi-Scale Large Kernel Attention Network for Scene Text Removal
Title（参考訳）: MSLKANet:シーンテキスト削除のための大規模カーネル注意ネットワーク
Authors: Guangtao Lyu (School of Computer Science and Artificial Intelligence, Wuhan University of Technology, China)
Abstract要約: シーンテキストの除去は、テキストを削除し、自然画像中の知覚的に妥当な背景情報で領域を埋めることを目的としている。ディープラーニングの発展に伴い、従来の手法は大幅に改善されている。フル画像のシーンテキスト除去のためのシングルステージマルチスケールネットワークMSLKANetを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text removal aims to remove the text and fill the regions with perceptually plausible background information in natural images. It has attracted increasing attention due to its various applications in privacy protection, scene text retrieval, and text editing. With the development of deep learning, the previous methods have achieved significant improvements. However, most of the existing methods seem to ignore the large perceptive fields and global information. The pioneer method can get significant improvements by only changing training data from the cropped image to the full image. In this paper, we present a single-stage multi-scale network MSLKANet for scene text removal in full images. For obtaining large perceptive fields and global information, we propose multi-scale large kernel attention (MSLKA) to obtain long-range dependencies between the text regions and the backgrounds at various granularity levels. Furthermore, we combine the large kernel decomposition mechanism and atrous spatial pyramid pooling to build a large kernel spatial pyramid pooling (LKSPP), which can perceive more valid pixels in the spatial dimension while maintaining large receptive fields and low cost of computation. Extensive experimental results indicate that the proposed method achieves state-of-the-art performance on both synthetic and real-world datasets and the effectiveness of the proposed components MSLKA and LKSPP.
Abstract（参考訳）: シーンのテキストの除去は、テキストを取り除き、自然画像の知覚的に妥当な背景情報で領域を満たすことを目的としている。プライバシー保護、シーンテキストの検索、テキスト編集といった様々な用途で注目を集めている。ディープラーニングの発展に伴い、従来の手法は大幅に改善されている。しかし、既存の手法のほとんどは、大きな知覚的分野やグローバルな情報を無視しているようである。先駆的な手法は、収穫された画像から全画像へのトレーニングデータを変更するだけで、大幅に改善できる。本稿では,全画像におけるシーンテキスト除去のためのマルチスケールネットワークmslkanetを提案する。そこで本研究では,テキスト領域と背景の長距離依存性をさまざまな粒度レベルで把握するためのマルチスケール大規模カーネルアテンション(MSLKA)を提案する。さらに,大きなカーネル分解機構とアトラスな空間ピラミッドプールを組み合わせることで,大きな受容場と計算コストを低く保ちながら,より有効な空間空間ピラミッドプール(LKSPP)を構築する。実験結果から,提案手法は,合成および実世界の両方のデータセット上での最先端性能と,提案手法のMSLKAとLKSPPの有効性が示唆された。

関連論文リスト

The Power of Context: How Multimodality Improves Image Super-Resolution [42.21009967392721]
シングルイメージ超解像(SISR)は、低解像度入力から微細な細部を復元することが本質的に困難であるため、依然として困難である。本稿では、複数のモードで利用可能なリッチな文脈情報を活用して、SISRの強力な生成前処理を学習する手法を提案する。我々のモデルは最先端のSISR法を超越し、優れた視覚的品質と忠実さを実現している。
論文参考訳（メタデータ） (2025-03-18T17:59:54Z)
HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文参考訳（メタデータ） (2024-11-27T15:22:44Z)
PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。 HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2024-08-02T09:31:21Z)
Dilated Strip Attention Network for Image Restoration [5.65781374269726]
画像復元のための拡張ストリップアテンションネットワーク(DSAN)を提案する。 DSA操作を水平および垂直に使用することにより、各場所はより広い領域からコンテキスト情報を収集することができる。実験の結果,DSANは複数の画像復元作業において最先端のアルゴリズムより優れていることがわかった。
論文参考訳（メタデータ） (2024-07-26T09:12:30Z)
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文参考訳（メタデータ） (2024-07-22T14:24:56Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
Self-supervised Scene Text Segmentation with Object-centric Layered Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-08-25T05:00:05Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文参考訳（メタデータ） (2021-01-04T09:40:54Z)
A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文参考訳（メタデータ） (2020-07-08T16:49:25Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。