論文の概要: Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection
- arxiv url: http://arxiv.org/abs/2409.16827v1
- Date: Wed, 25 Sep 2024 11:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:05:48.661283
- Title: Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection
- Title(参考訳): 任意形テキスト検出のための焦点エンティアリティと知覚環境
- Authors: Xu Han, Junyu Gao, Chuang Yang, Yuan Yuan, Qi Wang,
- Abstract要約: セグメンテーションベースのアプローチは、フレキシブルピクセルレベルの予測のため、顕著な競合候補として現れている。
そこで本研究では,フォーカス全体モジュールと知覚環境モジュールからなる多情報レベルの任意形テキスト検出器を提案する。
後者は、領域レベルの情報を抽出し、画素近傍の正のサンプルの分布にフォーカスするようモデルに促す。
- 参考スコア(独自算出の注目度): 31.180352896153682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the diversity of scene text in aspects such as font, color, shape, and size, accurately and efficiently detecting text is still a formidable challenge. Among the various detection approaches, segmentation-based approaches have emerged as prominent contenders owing to their flexible pixel-level predictions. However, these methods typically model text instances in a bottom-up manner, which is highly susceptible to noise. In addition, the prediction of pixels is isolated without introducing pixel-feature interaction, which also influences the detection performance. To alleviate these problems, we propose a multi-information level arbitrary-shaped text detector consisting of a focus entirety module (FEM) and a perceive environment module (PEM). The former extracts instance-level features and adopts a top-down scheme to model texts to reduce the influence of noises. Specifically, it assigns consistent entirety information to pixels within the same instance to improve their cohesion. In addition, it emphasizes the scale information, enabling the model to distinguish varying scale texts effectively. The latter extracts region-level information and encourages the model to focus on the distribution of positive samples in the vicinity of a pixel, which perceives environment information. It treats the kernel pixels as positive samples and helps the model differentiate text and kernel features. Extensive experiments demonstrate the FEM's ability to efficiently support the model in handling different scale texts and confirm the PEM can assist in perceiving pixels more accurately by focusing on pixel vicinities. Comparisons show the proposed model outperforms existing state-of-the-art approaches on four public datasets.
- Abstract(参考訳): フォント,色,形状,サイズなどの面におけるシーンテキストの多様性のため,テキストの正確かつ効率的な検出は依然として困難な課題である。
様々な検出手法の中で、セグメンテーションに基づくアプローチは、フレキシブルピクセルレベルの予測のために顕著な候補として現れている。
しかし、これらの手法は一般的にボトムアップ方式でテキストインスタンスをモデル化し、ノイズの影響を受けやすい。
さらに、画素間相互作用を導入することなく画素の予測を分離し、検出性能にも影響を及ぼす。
これらの問題を緩和するために、フォーカス全体モジュール(FEM)と知覚環境モジュール(PEM)からなる多情報レベルの任意形テキスト検出器を提案する。
前者はインスタンスレベルの特徴を抽出し、ノイズの影響を低減するためにテキストをモデル化するトップダウン方式を採用する。
具体的には、一貫性のある全情報を同じインスタンス内のピクセルに割り当てて、その凝集を改善する。
さらに、スケール情報を強調し、モデルが様々なスケールのテキストを効果的に識別できるようにする。
後者は、地域レベルの情報を抽出し、環境情報を知覚する画素近傍の正のサンプルの分布に焦点を合わせる。
カーネルピクセルを正のサンプルとして扱い、モデルがテキストとカーネルの特徴を区別するのに役立つ。
大規模な実験では、異なるスケールのテキストを扱う際に、FEMがモデルを効率的にサポートし、PEMがピクセルのビジニティに焦点をあてることで、ピクセルをより正確に知覚できることを示す。
比較では、提案されたモデルは、4つの公開データセットにおける既存の最先端アプローチよりも優れていることを示している。
関連論文リスト
- Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。