Fugu-MT 論文翻訳(概要): Research on Multilingual Natural Scene Text Detection Algorithm

論文の概要: Research on Multilingual Natural Scene Text Detection Algorithm

arxiv url: http://arxiv.org/abs/2312.11153v2
Date: Fri, 5 Jan 2024 08:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 17:43:01.514891
Title: Research on Multilingual Natural Scene Text Detection Algorithm
Title（参考訳）: 多言語自然シーンテキスト検出アルゴリズムに関する研究
Authors: Tao Wang
Abstract要約: 自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。そこで我々は,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語にわたる文字やフォントの検出において,モデルの堅牢性を高める。そこで本研究では,より効率的なテキスト検出のためのグローバルな特徴を抽出し,保存するグローバルセマンティックブランチを提案する。
参考スコア（独自算出の注目度）: 4.514028820667202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural scene text detection is a significant challenge in computer vision, with tremendous potential applications in multilingual, diverse, and complex text scenarios. We propose a multilingual text detection model to address the issues of low accuracy and high difficulty in detecting multilingual text in natural scenes. In response to the challenges posed by multilingual text images with multiple character sets and various font styles, we introduce the SFM Swin Transformer feature extraction network to enhance the model's robustness in detecting characters and fonts across different languages. Dealing with the considerable variation in text scales and complex arrangements in natural scene text images, we present the AS-HRFPN feature fusion network by incorporating an Adaptive Spatial Feature Fusion module and a Spatial Pyramid Pooling module. The feature fusion network improvements enhance the model's ability to detect text sizes and orientations. Addressing diverse backgrounds and font variations in multilingual scene text images is a challenge for existing methods. Limited local receptive fields hinder detection performance. To overcome this, we propose a Global Semantic Segmentation Branch, extracting and preserving global features for more effective text detection, aligning with the need for comprehensive information. In this study, we collected and built a real-world multilingual natural scene text image dataset and conducted comprehensive experiments and analyses. The experimental results demonstrate that the proposed algorithm achieves an F-measure of 85.02\%, which is 4.71\% higher than the baseline model. We also conducted extensive cross-dataset validation on MSRA-TD500, ICDAR2017MLT, and ICDAR2015 datasets to verify the generality of our approach. The code and dataset can be found at https://github.com/wangmelon/CEMLT.
Abstract（参考訳）: 自然シーンのテキスト検出はコンピュータビジョンにおいて重要な課題であり、多言語、多言語、多様、複雑なテキストシナリオに膨大な可能性を持つ。自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。複数の文字集合と様々なフォントスタイルを持つ多言語テキスト画像の課題に対応するために,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語をまたいだ文字やフォントの検出において,モデルの堅牢性を高める。自然シーンのテキスト画像におけるテキストスケールや複雑な配置のかなりの変化に対応して,アダプティブ空間特徴融合モジュールと空間ピラミッドプールモジュールを組み込んだAS-HRFPN特徴融合ネットワークを提案する。機能融合ネットワークの改善により、モデルがテキストサイズや方向を検出する能力が向上する。多言語シーンのテキスト画像における多様な背景やフォントのバリエーションに対処することは、既存の手法の課題である。限定的な局所受容場は検出性能を妨げる。そこで本研究では,より効果的なテキスト検出のためにグローバル特徴抽出と保存を行い,包括的情報の必要性に対応するグローバルセマンティックセグメンテーションブランチを提案する。本研究では,実世界の多言語自然シーン画像データセットを収集し,総合的な実験と分析を行った。実験の結果,提案アルゴリズムはベースラインモデルよりも4.71\%高い85.02\%のF値が得られることがわかった。また,MSRA-TD500, ICDAR2017MLT, ICDAR2015データセットのクロスデータセット検証を行った。コードとデータセットはhttps://github.com/wangmelon/CEMLTで確認できる。

関連論文リスト

SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文参考訳（メタデータ） (2025-07-27T09:16:39Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-09-25T11:19:09Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文参考訳（メタデータ） (2024-05-13T05:48:35Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Deformation Robust Text Spotting with Geometric Prior [5.639053898266709]
我々は,文字の複雑な変形の認識問題を解決するために,頑健なテキストスポッティング法(DR TextSpotter)を開発した。グラフ畳み込みネットワークは、キャラクタの特徴とランドマークの特徴を融合させ、セマンティック推論を行い、異なるキャラクタの識別を強化する。
論文参考訳（メタデータ） (2023-08-31T02:13:15Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文参考訳（メタデータ） (2022-11-25T09:47:34Z)
On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文参考訳（メタデータ） (2021-10-12T02:36:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。