論文の概要: Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2305.05140v1
- Date: Tue, 9 May 2023 02:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 14:04:59.191803
- Title: Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition
- Title(参考訳): 言語的 more: 効率的かつ正確なシーンテキスト認識へのさらなる一歩を踏み出す
- Authors: Boqiang Zhang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Yongdong Zhang
- Abstract要約: Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
- 参考スコア(独自算出の注目度): 92.6211155264297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision model have gained increasing attention due to their simplicity and
efficiency in Scene Text Recognition (STR) task. However, due to lacking the
perception of linguistic knowledge and information, recent vision models suffer
from two problems: (1) the pure vision-based query results in attention drift,
which usually causes poor recognition and is summarized as linguistic
insensitive drift (LID) problem in this paper. (2) the visual feature is
suboptimal for the recognition in some vision-missing cases (e.g. occlusion,
etc.). To address these issues, we propose a $\textbf{L}$inguistic
$\textbf{P}$erception $\textbf{V}$ision model (LPV), which explores the
linguistic capability of vision model for accurate text recognition. To
alleviate the LID problem, we introduce a Cascade Position Attention (CPA)
mechanism that obtains high-quality and accurate attention maps through
step-wise optimization and linguistic information mining. Furthermore, a Global
Linguistic Reconstruction Module (GLRM) is proposed to improve the
representation of visual features by perceiving the linguistic information in
the visual space, which gradually converts visual features into semantically
rich ones during the cascade process. Different from previous methods, our
method obtains SOTA results while keeping low complexity (92.4% accuracy with
only 8.11M parameters). Code is available at
$\href{https://github.com/CyrilSterling/LPV}{https://github.com/CyrilSterling/LPV}$.
- Abstract(参考訳): Scene Text Recognition(STR)タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
しかし、言語知識や情報に対する認識が欠如しているため、近年の視覚モデルは2つの問題に悩まされている。(1)純粋な視覚に基づく問合せは注意のドリフトをもたらすが、これは一般的に認識不良を引き起こし、言語的不感なドリフト(LID)問題として要約される。
2)視覚障害のある場合(例えば、咬合など)では、視覚特徴が認識に準最適である。
これらの問題に対処するために、正確なテキスト認識のための視覚モデルの言語的能力を探求する$\textbf{L}$inguistic $\textbf{P}$erception $\textbf{V}$ision model (LPV)を提案する。
LID問題を緩和するために,ステップワイズ最適化と言語情報マイニングにより高品質で正確な注意マップを得るカスケード位置注意(CPA)機構を導入する。
さらに,グローバル言語再構築モジュール (GLRM) は視覚空間の言語情報を知覚することで視覚的特徴の表現を改善するために提案されている。
従来の方法と異なり,低複雑性(92.4%の精度で8.11mのパラメータしか持たない)を維持しつつsota結果を得る。
コードは$\href{https://github.com/CyrilSterling/LPV}{https://github.com/CyrilSterling/LPV}$で入手できる。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
我々は,SGD(Session-Guided Decoding)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:24:27Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。