論文の概要: From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network
- arxiv url: http://arxiv.org/abs/2108.09661v1
- Date: Sun, 22 Aug 2021 07:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:46:01.176810
- Title: From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network
- Title(参考訳): 2つから1つ:ビジュアル言語モデリングネットワークを備えた新しいシーンテキスト認識器
- Authors: Yuxin Wang, Hongtao Xie, Shancheng Fang, Jing Wang, Shenggao Zhu and
Yongdong Zhang
- Abstract要約: 本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
- 参考スコア(独自算出の注目度): 70.47504933083218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we abandon the dominant complex language model and rethink the
linguistic learning process in the scene text recognition. Different from
previous methods considering the visual and linguistic information in two
separate structures, we propose a Visual Language Modeling Network (VisionLAN),
which views the visual and linguistic information as a union by directly
enduing the vision model with language capability. Specially, we introduce the
text recognition of character-wise occluded feature maps in the training stage.
Such operation guides the vision model to use not only the visual texture of
characters, but also the linguistic information in visual context for
recognition when the visual cues are confused (e.g. occlusion, noise, etc.). As
the linguistic information is acquired along with visual features without the
need of extra language model, VisionLAN significantly improves the speed by 39%
and adaptively considers the linguistic information to enhance the visual
features for accurate recognition. Furthermore, an Occlusion Scene Text (OST)
dataset is proposed to evaluate the performance on the case of missing
character-wise visual cues. The state of-the-art results on several benchmarks
prove our effectiveness. Code and dataset are available at
https://github.com/wangyuxin87/VisionLAN.
- Abstract(参考訳): 本稿では,支配的な複雑な言語モデルを捨て,シーンテキスト認識における言語学習プロセスを再考する。
視覚的・言語的情報を2つの異なる構造で考える従来の手法とは違って,視覚的・言語的情報を言語能力に直結させることで,連合体とみなす視覚的言語モデリングネットワーク(VisionLAN)を提案する。
特に, 訓練段階では, 字幕付き特徴地図のテキスト認識について紹介する。
このような操作は、視覚モデルに対して、文字の視覚的テクスチャだけでなく、視覚的手がかりが混同されている場合(例えば)、認識のための視覚的コンテキストの言語情報を使用するように誘導する。
閉塞、騒音など)。
言語情報は、余分な言語モデルを必要としない視覚的特徴とともに獲得されるため、VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に考慮する。
さらにオクルージョンシーンテキスト(ost)データセットを提案し,文字方向の視覚手がかりが欠落した場合の性能評価を行った。
いくつかのベンチマークにおける最先端の結果は、我々の効果を証明している。
コードとデータセットはhttps://github.com/wangyuxin87/VisionLANで入手できる。
関連論文リスト
- Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。