論文の概要: Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2103.06495v1
- Date: Thu, 11 Mar 2021 06:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:46:55.048824
- Title: Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition
- Title(参考訳): Read Like Humans: シーンテキスト認識のための自律的、双方向、反復言語モデリング
- Authors: Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang
- Abstract要約: 言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
- 参考スコア(独自算出の注目度): 80.446770909975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Linguistic knowledge is of great benefit to scene text recognition. However,
how to effectively model linguistic rules in end-to-end deep networks remains a
research challenge. In this paper, we argue that the limited capacity of
language models comes from: 1) implicitly language modeling; 2) unidirectional
feature representation; and 3) language model with noise input.
Correspondingly, we propose an autonomous, bidirectional and iterative ABINet
for scene text recognition. Firstly, the autonomous suggests to block gradient
flow between vision and language models to enforce explicitly language
modeling. Secondly, a novel bidirectional cloze network (BCN) as the language
model is proposed based on bidirectional feature representation. Thirdly, we
propose an execution manner of iterative correction for language model which
can effectively alleviate the impact of noise input. Additionally, based on the
ensemble of iterative predictions, we propose a self-training method which can
learn from unlabeled images effectively. Extensive experiments indicate that
ABINet has superiority on low-quality images and achieves state-of-the-art
results on several mainstream benchmarks. Besides, the ABINet trained with
ensemble self-training shows promising improvement in realizing human-level
recognition. Code is available at https://github.com/FangShancheng/ABINet.
- Abstract(参考訳): 言語知識はシーンのテキスト認識に非常に有益である。
しかし、エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法は研究課題である。
本論文では,1)暗黙的な言語モデル,2)一方向的特徴表現,3)ノイズ入力を伴う言語モデルから,言語モデルの能力が制限されることを論じる。
そこで我々は,シーンテキスト認識のための自律的,双方向かつ反復的なABINetを提案する。
まず、自律型は視覚と言語モデルの間の勾配フローをブロックし、明示的に言語モデリングを強制することを提案します。
次に,双方向特徴表現に基づく言語モデルとして,新たな双方向クローゼネットワーク(bcn)を提案する。
第3に、雑音入力の影響を効果的に緩和できる言語モデルに対する反復的修正の実行方法を提案する。
さらに,反復予測のアンサンブルに基づいて,ラベルのない画像から効果的に学習できる自己学習手法を提案する。
広範な実験は、abinetが低品質の画像に優れていることを示し、いくつかのメインストリームベンチマークで最先端の結果を達成した。
さらに、アンサンブルで訓練されたABINetは、人間レベルの認識を実現するための有望な改善を示している。
コードはhttps://github.com/FangShancheng/ABINetで入手できる。
関連論文リスト
- Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Are discrete units necessary for Spoken Language Modeling? [10.374092717909603]
音声言語モデリングにおける最近の研究は、テキストラベルなしで生音声から教師なしの言語を学ぶ可能性を示している。
音声言語モデリングの優れた結果を得るためには,離散化が不可欠であることを示す。
また、HuBERTのような個別のターゲットで訓練されたエンドツーエンドモデルは、擬似テキストで訓練された最良の言語モデルと同様の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-03-11T14:14:35Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。