論文の概要: ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting
- arxiv url: http://arxiv.org/abs/2211.10578v1
- Date: Sat, 19 Nov 2022 03:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:59:07.931052
- Title: ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting
- Title(参考訳): abinet++:シーンテキストスポッティングのための自律的、双方向、反復言語モデリング
- Authors: Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan,
Yongdong Zhang
- Abstract要約: 言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
- 参考スコア(独自算出の注目度): 121.11880210592497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text spotting is of great importance to the computer vision community
due to its wide variety of applications. Recent methods attempt to introduce
linguistic knowledge for challenging recognition rather than pure visual
classification. However, how to effectively model the linguistic rules in
end-to-end deep networks remains a research challenge. In this paper, we argue
that the limited capacity of language models comes from 1) implicit language
modeling; 2) unidirectional feature representation; and 3) language model with
noise input. Correspondingly, we propose an autonomous, bidirectional and
iterative ABINet++ for scene text spotting. Firstly, the autonomous suggests
enforcing explicitly language modeling by decoupling the recognizer into vision
model and language model and blocking gradient flow between both models.
Secondly, a novel bidirectional cloze network (BCN) as the language model is
proposed based on bidirectional feature representation. Thirdly, we propose an
execution manner of iterative correction for the language model which can
effectively alleviate the impact of noise input. Finally, to polish ABINet++ in
long text recognition, we propose to aggregate horizontal features by embedding
Transformer units inside a U-Net, and design a position and content attention
module which integrates character order and content to attend to character
features precisely. ABINet++ achieves state-of-the-art performance on both
scene text recognition and scene text spotting benchmarks, which consistently
demonstrates the superiority of our method in various environments especially
on low-quality images. Besides, extensive experiments including in English and
Chinese also prove that, a text spotter that incorporates our language modeling
method can significantly improve its performance both in accuracy and speed
compared with commonly used attention-based recognizers.
- Abstract(参考訳): シーンテキストスポッティングは、様々な用途のためにコンピュータビジョンコミュニティにとって非常に重要である。
最近の手法では、純粋に視覚的な分類ではなく、認識に挑戦するための言語知識の導入を試みる。
しかし、エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法は研究課題である。
本稿では,言語モデルの限られた能力は言語モデルから生じると論じる。
1) 暗黙の言語モデリング
2) 一方向の特徴表現,及び
3)雑音入力言語モデル。
そこで我々は,シーンテキストスポッティングのための自律的,双方向かつ反復的なABINet++を提案する。
まず、自律型は認識者を視覚モデルと言語モデルに分離し、両方のモデル間の勾配フローをブロックすることで、明示的に言語モデリングを強制することを提案します。
次に,双方向特徴表現に基づく言語モデルとして,新たな双方向クローゼネットワーク(BCN)を提案する。
第3に、雑音入力の影響を効果的に緩和できる言語モデルに対する反復的修正の実行方法を提案する。
最後に, abinet++ を長文認識で磨くために, u-net 内にトランスフォーマーユニットを組み込んで水平特徴を集約し, 文字の順序とコンテンツを文字の特徴に正確に統合した位置・コンテンツ注目モジュールを設計することを提案する。
ABINet++は、シーンテキスト認識とシーンテキストスポッティングベンチマークの両方で最先端のパフォーマンスを実現しており、特に低画質画像において、各環境における我々の手法の優位性を一貫して示している。
さらに、英語や中国語を含む広範な実験により、我々の言語モデリング手法を取り入れたテキストスポッターは、一般的に使われている注意に基づく認識器と比較して、精度と速度の両方でその性能を著しく向上させることができることが証明された。
関連論文リスト
- Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。