論文の概要: ReADS: A Rectified Attentional Double Supervised Network for Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2004.02070v2
- Date: Tue, 7 Apr 2020 01:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:04:36.629616
- Title: ReADS: A Rectified Attentional Double Supervised Network for Scene Text
Recognition
- Title(参考訳): ReADS: シーンテキスト認識のための意図的二重監視ネットワーク
- Authors: Qi Song, Qianyi Jiang, Nan Li, Rui Zhang and Xiaolin Wei
- Abstract要約: 一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。
ReADSはエンドツーエンドでトレーニングすることができ、ワードレベルのアノテーションのみが必要とされる。
- 参考スコア(独自算出の注目度): 22.367624178280682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, scene text recognition is always regarded as a
sequence-to-sequence problem. Connectionist Temporal Classification (CTC) and
Attentional sequence recognition (Attn) are two very prevailing approaches to
tackle this problem while they may fail in some scenarios respectively. CTC
concentrates more on every individual character but is weak in text semantic
dependency modeling. Attn based methods have better context semantic modeling
ability while tends to overfit on limited training data. In this paper, we
elaborately design a Rectified Attentional Double Supervised Network (ReADS)
for general scene text recognition. To overcome the weakness of CTC and Attn,
both of them are applied in our method but with different modules in two
supervised branches which can make a complementary to each other. Moreover,
effective spatial and channel attention mechanisms are introduced to eliminate
background noise and extract valid foreground information. Finally, a simple
rectified network is implemented to rectify irregular text. The ReADS can be
trained end-to-end and only word-level annotations are required. Extensive
experiments on various benchmarks verify the effectiveness of ReADS which
achieves state-of-the-art performance.
- Abstract(参考訳): 近年,シーンテキスト認識は常にシーケンス・ツー・シーケンス問題と見なされている。
Connectionist Temporal Classification (CTC) と Attentional sequence recognition (Attn) は、いくつかのシナリオでそれぞれ失敗するが、この問題に対処するための非常に一般的なアプローチである。
CTCは個々の文字に集中しているが、テキストセマンティック依存モデリングでは弱い。
Attnベースのメソッドは、限られたトレーニングデータに過度に適合する傾向があるが、コンテキストセマンティックモデリング能力が優れている。
本稿では,一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。
ctc と attn の弱さを克服するために, 両者は互いに相補的となる2つの教師付き枝の異なるモジュールを用いて, 本手法に適用される。
さらに,背景雑音を除去し,有効なフォアグラウンド情報を抽出するための効果的な空間的・チャネル的注意機構を導入する。
最後に、不規則テキストの修正のために、単純な修正ネットワークを実装する。
読み取りはエンドツーエンドでトレーニングでき、単語レベルのアノテーションのみが必要である。
各種ベンチマークの大規模な実験により,最先端性能を実現するReADSの有効性が検証された。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for
Visual Information Extraction using Sequences [27.75850798545413]
TCPN(Tag, Copy, Predict Network)と呼ばれる弱教師付き学習フレームワークを提案する。
提案手法は,いくつかの公開ベンチマークにおいて新しい最先端性能を示し,その有効性を十分に証明する。
論文 参考訳(メタデータ) (2021-06-20T11:56:46Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。