論文の概要: A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition
- arxiv url: http://arxiv.org/abs/2503.15639v1
- Date: Wed, 19 Mar 2025 18:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:42.477789
- Title: A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition
- Title(参考訳): 軽量シーンテキストセグメンテーションと認識のための文脈駆動学習自由ネットワーク
- Authors: Ritabrata Chakraborty, Shivakumara Palaiahnakote, Umapada Pal, Cheng-Lin Liu,
- Abstract要約: テキスト認識システムは、広範囲のトレーニングを必要とする大規模なエンドツーエンドアーキテクチャに依存しており、リアルタイムシナリオでは極めて高価である。
本稿では,冗長計算を最小化しつつ,事前学習したテキスト認識器の強みを生かした,学習不要なプラグイン・アンド・プレイフレームワークを提案する。
提案手法では,文脈に基づく理解と注目に基づくセグメンテーションのステージを導入し,画素レベルの候補テキスト領域を改良する。
- 参考スコア(独自算出の注目度): 32.142713322062306
- License:
- Abstract: Modern scene text recognition systems often depend on large end-to-end architectures that require extensive training and are prohibitively expensive for real-time scenarios. In such cases, the deployment of heavy models becomes impractical due to constraints on memory, computational resources, and latency. To address these challenges, we propose a novel, training-free plug-and-play framework that leverages the strengths of pre-trained text recognizers while minimizing redundant computations. Our approach uses context-based understanding and introduces an attention-based segmentation stage, which refines candidate text regions at the pixel level, improving downstream recognition. Instead of performing traditional text detection that follows a block-level comparison between feature map and source image and harnesses contextual information using pretrained captioners, allowing the framework to generate word predictions directly from scene context.Candidate texts are semantically and lexically evaluated to get a final score. Predictions that meet or exceed a pre-defined confidence threshold bypass the heavier process of end-to-end text STR profiling, ensuring faster inference and cutting down on unnecessary computations. Experiments on public benchmarks demonstrate that our paradigm achieves performance on par with state-of-the-art systems, yet requires substantially fewer resources.
- Abstract(参考訳): 現代のシーンテキスト認識システムは、広範囲のトレーニングを必要とする大規模なエンドツーエンドアーキテクチャに依存しており、リアルタイムシナリオでは極めて高価である。
このような場合、メモリ、計算リソース、レイテンシに制約があるため、重いモデルのデプロイは現実的ではない。
これらの課題に対処するために、冗長な計算を最小化しつつ、事前学習されたテキスト認識器の強みを生かした、新しい学習不要なプラグアンドプレイフレームワークを提案する。
提案手法では、文脈に基づく理解と、注目に基づくセグメンテーションのステージを導入し、画素レベルの候補テキスト領域を洗練し、下流認識を改善する。
特徴マップとソースイメージのブロックレベル比較に従って従来のテキスト検出を行う代わりに、事前訓練されたキャプタを使用してコンテキスト情報を活用することで、シーンコンテキストから直接単語予測を生成可能にする。
事前定義された信頼しきい値を満たしたり、越えたりする予測は、エンドツーエンドのSTRプロファイリングの重いプロセスを回避し、高速な推論と不要な計算の削減を保証します。
公開ベンチマーク実験により、我々のパラダイムは最先端のシステムと同等の性能を達成できるが、リソースは極めて少ないことが示された。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Key Information Retrieval to Classify the Unstructured Data Content of
Preferential Trade Agreements [17.14791553124506]
長文の分類と予測に新しいアプローチを導入する。
我々は、長いテキストを凝縮するために埋め込み技術を採用し、その冗長性を減少させることを目的としている。
提案手法は, 優先貿易協定の長文分類において, 大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-23T06:30:05Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Review Regularized Neural Collaborative Filtering [11.960536488652354]
本稿では、R3と略されるフレキシブルなニューラルレコメンデーションフレームワークであるReview Regularized Recommendationを提案する。
予測出力に焦点を当てたニューラルコラボレーティブフィルタリング部と、正規化器として機能するテキスト処理部とから構成される。
予備的な結果は、単純なテキスト処理手法を用いることで、最先端のテキスト認識手法よりも優れた予測性能が得られることを示している。
論文 参考訳(メタデータ) (2020-08-20T18:54:27Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。