論文の概要: Shift Variance in Scene Text Detection
- arxiv url: http://arxiv.org/abs/2208.09231v1
- Date: Fri, 19 Aug 2022 09:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:12:53.113911
- Title: Shift Variance in Scene Text Detection
- Title(参考訳): シーンテキスト検出におけるシフト変動
- Authors: Markus Glitzner, Jan-Hendrik Neudeck, Philipp H\"artinger
- Abstract要約: 畳み込みニューラルネットワークの理論は、シフトした入力が等しくシフトした出力を引き起こすことを示唆している。
我々は、最先端の完全畳み込みテキスト検出器の本質的なシフト分散を実証する。
本研究は, 構造変化が小さいことで, シフト等分散が向上し, 検出器出力の変動が小さくなることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of convolutional neural networks suggests the property of shift
equivariance, i.e., that a shifted input causes an equally shifted output. In
practice, however, this is not always the case. This poses a great problem for
scene text detection for which a consistent spatial response is crucial,
irrespective of the position of the text in the scene.
Using a simple synthetic experiment, we demonstrate the inherent shift
variance of a state-of-the-art fully convolutional text detector. Furthermore,
using the same experimental setting, we show how small architectural changes
can lead to an improved shift equivariance and less variation of the detector
output. We validate the synthetic results using a real-world training schedule
on the text detection network. To quantify the amount of shift variability, we
propose a metric based on well-established text detection benchmarks.
While the proposed architectural changes are not able to fully recover shift
equivariance, adding smoothing filters can substantially improve shift
consistency on common text datasets. Considering the potentially large impact
of small shifts, we propose to extend the commonly used text detection metrics
by the metric described in this work, in order to be able to quantify the
consistency of text detectors.
- Abstract(参考訳): 畳み込みニューラルネットワークの理論は、シフト同分散の性質、すなわちシフト入力が等しくシフトされた出力を引き起こすことを示唆する。
しかし実際には、必ずしもそうとは限らない。
これは、シーン内のテキストの位置に関わらず、一貫した空間応答が重要であるシーンのテキスト検出において大きな問題となる。
単純な合成実験を用いて,最先端の完全畳み込み文検出器の固有シフト分散を実証する。
さらに,同じ実験的な設定を用いて,アーキテクチャ変更がいかに小さく,シフト等価性が向上し,検出器出力のばらつきが小さくなるかを示す。
テキスト検出ネットワーク上で実世界のトレーニングスケジュールを用いて合成結果を検証する。
シフト変動量の定量化のために,確立されたテキスト検出ベンチマークに基づくメトリクスを提案する。
提案されたアーキテクチャ変更はシフト等価性を完全に回復することができないが、平滑化フィルタを追加することで、一般的なテキストデータセットのシフト一貫性が大幅に向上する。
小さいシフトによる潜在的大きな影響を考慮し,本研究で記述した指標を用いて,一般的なテキスト検出指標を拡張し,テキスト検出の一貫性を定量化することを提案する。
関連論文リスト
- Automatic dataset shift identification to support root cause analysis of AI performance drift [13.996602963045387]
データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
本稿では,最初の教師なしデータセットシフト識別フレームワークを提案する。
提案フレームワークの5種類の実世界のデータセットシフトに関する有望な結果を報告する。
論文 参考訳(メタデータ) (2024-11-12T17:09:20Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Ensembling Shift Detectors: an Extensive Empirical Evaluation [0.2538209532048867]
データセットシフトという用語は、機械学習モデルをトレーニングするために使用されるデータが、モデルが動作する場所と異なる状況を指す。
本稿では,各検出器の統計的テストの重要度をデータセットに調整しながら,相補的なシフト検出器をアンサンブルする,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T12:21:16Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Shift Equivariance in Object Detection [8.03777903218606]
近年の研究では、CNNベースの分類器はシフト不変ではないことが示されている。
このことが物体検出にどの程度影響を与えるかは、主に2つの構造の違いと現代の検出器の予測空間の寸法の違いから明らかでない。
シフトした画像集合上での平均値の平均値と平均値の下位値と上位値のグリーディ探索に基づく評価指標を提案する。
論文 参考訳(メタデータ) (2020-08-13T10:02:02Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。