論文の概要: Scene Text Detection for Augmented Reality -- Character Bigram Approach
to reduce False Positive Rate
- arxiv url: http://arxiv.org/abs/2101.01054v1
- Date: Sat, 26 Dec 2020 08:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:13:09.490509
- Title: Scene Text Detection for Augmented Reality -- Character Bigram Approach
to reduce False Positive Rate
- Title(参考訳): 拡張現実のためのシーンテキスト検出 --文字bigramによる偽陽性率の低減
- Authors: Sagar Gubbi and Bharadwaj Amrutur
- Abstract要約: 単文字ではなく文字ペア(ビグラム)を探すことにより,スライディングウィンドウテキストスポッターの性能向上を提案する。
効率的な畳み込みニューラルネットワークは、ビッグラムを検出するために設計および訓練される。
- 参考スコア(独自算出の注目度): 0.7832189413179361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural scene text detection is an important aspect of scene understanding
and could be a useful tool in building engaging augmented reality applications.
In this work, we address the problem of false positives in text spotting. We
propose improving the performace of sliding window text spotters by looking for
character pairs (bigrams) rather than single characters. An efficient
convolutional neural network is designed and trained to detect bigrams. The
proposed detector reduces false positive rate by 28.16% on the ICDAR 2015
dataset. We demonstrate that detecting bigrams is a computationally inexpensive
way to improve sliding window text spotters.
- Abstract(参考訳): 自然シーンのテキスト検出はシーン理解の重要な側面であり、拡張現実アプリケーションを構築する上で有用なツールである。
本研究では,テキストスポッティングにおける偽陽性の問題に対処する。
単文字ではなく文字ペア(ビグラム)を探すことにより,スライディングウィンドウテキストスポッターの性能向上を提案する。
効率的な畳み込みニューラルネットワークを設計し、ビッグラムを検出するように訓練する。
提案された検出器は、ICDAR 2015データセットにおいて偽陽性率を28.16%削減する。
我々は,スライディングウィンドウのテキストスポッターを改善するために,bigramsの検出が計算的に安価な方法であることを実証する。
関連論文リスト
- Seeing Text in the Dark: Algorithm and Benchmark [28.865779563872977]
そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:07:10Z) - TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - RaSa: Relation and Sensitivity Aware Representation Learning for
Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。
RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。
実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文 参考訳(メタデータ) (2023-05-23T03:53:57Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。