論文の概要: Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2107.12087v1
- Date: Mon, 26 Jul 2021 10:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 20:23:47.149807
- Title: Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation
- Title(参考訳): テキストは、何であれテキストである:知識蒸留によるテキスト認識の統合
- Authors: Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Yi-Zhe Song
- Abstract要約: 私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。
まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
- 参考スコア(独自算出の注目度): 41.43280922432707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text recognition remains a fundamental and extensively researched topic in
computer vision, largely owing to its wide array of commercial applications.
The challenging nature of the very problem however dictated a fragmentation of
research efforts: Scene Text Recognition (STR) that deals with text in everyday
scenes, and Handwriting Text Recognition (HTR) that tackles hand-written text.
In this paper, for the first time, we argue for their unification -- we aim for
a single model that can compete favourably with two separate state-of-the-art
STR and HTR models. We first show that cross-utilisation of STR and HTR models
trigger significant performance drops due to differences in their inherent
challenges. We then tackle their union by introducing a knowledge distillation
(KD) based framework. This is however non-trivial, largely due to the
variable-length and sequential nature of text sequences, which renders
off-the-shelf KD techniques that mostly works with global fixed-length data
inadequate. For that, we propose three distillation losses all of which are
specifically designed to cope with the aforementioned unique characteristics of
text recognition. Empirical evidence suggests that our proposed unified model
performs on par with individual models, even surpassing them in certain cases.
Ablative studies demonstrate that naive baselines such as a two-stage
framework, and domain adaption/generalisation alternatives do not work as well,
further verifying the appropriateness of our design.
- Abstract(参考訳): テキスト認識はいまだにコンピュータビジョンにおける基礎的かつ広範囲に研究されているトピックであり、その商業用途が多岐にわたるためである。
しかし、この問題の難しさは、日常の場面でテキストを扱うScene Text Recognition(STR)と手書きテキストに対処するHTR(Handwriting Text Recognition)という、研究努力の断片化を規定した。
この論文では、私たちは初めてそれらの統一について論じます -- 私たちは2つの最先端のstrモデルとhtrモデルとうまく競合できる1つのモデルを目指しています。
まず,strモデルとhtrモデルの相互利用が,本質的課題の違いによる大幅なパフォーマンス低下を引き起こすことを示した。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
これは主にテキストシーケンスの可変長とシーケンシャルな性質によるもので、ほとんどがグローバル固定長データで不適切な動作をする、既成のkd技法をレンダリングしている。
そこで本研究では, 上記のテキスト認識の特徴に対応するために, 蒸留損失を3つ提案する。
実証的証拠は,提案する統一モデルが個々のモデルと同等の性能を発揮することを示唆する。
Ablative studyは、2段階のフレームワークやドメイン適応/一般化の代替案がうまく機能せず、設計の適切性をさらに検証していることを示している。
関連論文リスト
- MOoSE: Multi-Orientation Sharing Experts for Open-set Scene Text Recognition [3.6227230205444902]
オープンセットテキスト認識は、新しい文字と以前に見られた文字の両方に対処することを目的としている。
まず,新しい文字と書き方の違いの両方の課題をモデル化するために,MOOSTR(Multi-Oriented Open-Set Text Recognition Task)を提案する。
次に、強力なベースラインソリューションとして、MOoSE(Multi-Orientation Sharing Experts)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T09:20:29Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Relational Contrastive Learning for Scene Text Recognition [22.131554868199782]
従来の文脈情報は、異種テキストや背景から、テキストプリミティブの関係と解釈できると論じる。
本稿では,再構成,階層化,インタラクションによるテキスト関係の強化と,RCLSTR: Contrastive Learning for Scene Text Recognitionと呼ばれる統合フレームワークの設計を提案する。
論文 参考訳(メタデータ) (2023-08-01T12:46:58Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。
ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。
本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-09T15:44:36Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。