論文の概要: Comprehensive Studies for Arbitrary-shape Scene Text Detection
- arxiv url: http://arxiv.org/abs/2107.11800v1
- Date: Sun, 25 Jul 2021 13:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 01:10:42.696019
- Title: Comprehensive Studies for Arbitrary-shape Scene Text Detection
- Title(参考訳): 任意形状のシーンテキスト検出のための総合的研究
- Authors: Pengwen Dai, Xiaochun Cao
- Abstract要約: ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
- 参考スコア(独自算出の注目度): 78.50639779134944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous scene text detection methods have been proposed in recent years.
Most of them declare they have achieved state-of-the-art performances. However,
the performance comparison is unfair, due to lots of inconsistent settings
(e.g., training data, backbone network, multi-scale feature fusion, evaluation
protocols, etc.). These various settings would dissemble the pros and cons of
the proposed core techniques. In this paper, we carefully examine and analyze
the inconsistent settings, and propose a unified framework for the bottom-up
based scene text detection methods. Under the unified framework, we ensure the
consistent settings for non-core modules, and mainly investigate the
representations of describing arbitrary-shape scene texts, e.g., regressing
points on text contours, clustering pixels with predicted auxiliary
information, grouping connected components with learned linkages, etc. With the
comprehensive investigations and elaborate analyses, it not only cleans up the
obstacle of understanding the performance differences between existing methods
but also reveals the advantages and disadvantages of previous models under fair
comparisons.
- Abstract(参考訳): 近年,シーンテキスト検出手法が数多く提案されている。
その多くは、最先端のパフォーマンスを達成したと宣言している。
しかしながら、一貫性のない設定(トレーニングデータ、バックボーンネットワーク、マルチスケール機能融合、評価プロトコルなど)が多いため、パフォーマンス比較は不公平である。
これらの様々な設定は、提案されたコアテクニックの長所と短所を分解する。
本稿では,一貫性のない設定を慎重に検討・分析し,ボトムアップに基づくシーンテキスト検出のための統一フレームワークを提案する。
統一されたフレームワークの下では,非コアモジュールの一貫した設定を保証し,テキスト輪郭上の回帰点,予測補助情報によるクラスタリング画素,学習したリンク付き接続コンポーネントのグループ化など,任意の形式のシーンテキストを記述する表現を主に検討する。
包括的調査と精巧な分析により、既存の手法間の性能差を理解することの障害を解消するだけでなく、公正な比較で過去のモデルの利点と欠点を明らかにする。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。