Fugu-MT 論文翻訳(概要): FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting

論文の概要: FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting

arxiv url: http://arxiv.org/abs/2408.14998v1
Date: Tue, 27 Aug 2024 12:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 13:53:43.257252
Title: FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting
Title（参考訳）: FastTextSpotter:マルチリンガルシーンテキストスポッティングのための高効率変換器
Authors: Alloy Das, Sanket Biswas, Umapada Pal, Josep Lladós, Saumik Bhattacharya,
Abstract要約: 本稿では,Swin Transformerの視覚バックボーンとTransformer-Decoderアーキテクチャを統合したFastTextSpotterを提案する。 FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。以上の結果から,FastTextSpotterは多言語シーンテキストの検出と認識において,より優れた精度を実現することが示唆された。
参考スコア（独自算出の注目度）: 14.054151352916296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of scene text in both structured and unstructured environments presents significant challenges in optical character recognition (OCR), necessitating more efficient and robust text spotting solutions. This paper presents FastTextSpotter, a framework that integrates a Swin Transformer visual backbone with a Transformer Encoder-Decoder architecture, enhanced by a novel, faster self-attention unit, SAC2, to improve processing speeds while maintaining accuracy. FastTextSpotter has been validated across multiple datasets, including ICDAR2015 for regular texts and CTW1500 and TotalText for arbitrary-shaped texts, benchmarking against current state-of-the-art models. Our results indicate that FastTextSpotter not only achieves superior accuracy in detecting and recognizing multilingual scene text (English and Vietnamese) but also improves model efficiency, thereby setting new benchmarks in the field. This study underscores the potential of advanced transformer architectures in improving the adaptability and speed of text spotting applications in diverse real-world settings. The dataset, code, and pre-trained models have been released in our Github.
Abstract（参考訳）: 構造化された環境と非構造化環境の両方におけるシーンテキストの拡散は、光学的文字認識(OCR)において重要な課題を示し、より効率的で堅牢なテキストスポッティングソリューションを必要とする。本稿では,Swin Transformerの視覚バックボーンとTransformer Encoder-Decoderアーキテクチャを統合するフレームワークであるFastTextSpotterについて述べる。 FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。以上の結果から,FastTextSpotterは多言語シーンテキスト(英語とベトナム語)の検出と認識において優れた精度を実現するだけでなく,モデル効率の向上を実現し,フィールドに新たなベンチマークを設定できることが示唆された。本研究は,多種多様な実世界の環境におけるテキストスポッティングアプリケーションの適応性と速度を向上させるための,高度なトランスフォーマーアーキテクチャの可能性を明らかにするものである。データセット、コード、事前トレーニングされたモデルはGithubでリリースされています。

関連論文リスト

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。本稿では,文字位置の符号化と位置の符号化手法を提案する。我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-30T09:55:39Z)
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance [24.242452422416438]
我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。 TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
論文参考訳（メタデータ） (2025-05-29T05:40:35Z)
GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文参考訳（メタデータ） (2025-05-08T03:11:58Z)
ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2023-08-20T03:22:23Z)
Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文参考訳（メタデータ） (2023-08-15T05:08:12Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文参考訳（メタデータ） (2022-07-10T15:45:16Z)
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文参考訳（メタデータ） (2022-03-19T01:14:42Z)
A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文参考訳（メタデータ） (2022-03-17T15:28:29Z)
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2021-09-21T16:01:56Z)
CentripetalText: An Efficient Text Instance Representation for Scene Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。 CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文参考訳（メタデータ） (2021-07-13T09:34:18Z)
Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文参考訳（メタデータ） (2020-02-17T08:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。