論文の概要: Masked and Permuted Implicit Context Learning for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2305.16172v1
- Date: Thu, 25 May 2023 15:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:20:20.766848
- Title: Masked and Permuted Implicit Context Learning for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのマスキングおよび置換暗黙的文脈学習
- Authors: Xiaomeng Yang, Zhi Qiao, Jin Wei, Yu Zhou, Ye Yuan, Zhilong Ji,
Dongbao Yang, Weiping Wang
- Abstract要約: Scene Recognition (STR) は、テキストスタイル、形状、背景の変化のために難しいタスクである。
既存の手法は、文脈情報を暗黙的に学習するために、置換言語モデリング(MLM)やマスキング言語モデリング(MLM)に依存している。
本研究では,PLMを統一し,単一の復号化アーキテクチャに組み込む,STRのためのMasked and Permuted Implicit Context Learning Networkを提案する。
- 参考スコア(独自算出の注目度): 17.928979609130828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Recognition (STR) is a challenging task due to variations in text
style, shape, and background. Incorporating linguistic information is an
effective way to enhance the robustness of STR models. Existing methods rely on
permuted language modeling (PLM) or masked language modeling (MLM) to learn
contextual information implicitly, either through an ensemble of permuted
autoregressive (AR) LMs training or iterative non-autoregressive (NAR) decoding
procedure. However, these methods exhibit limitations: PLM's AR decoding
results in the lack of information about future characters, while MLM provides
global information of the entire text but neglects dependencies among each
predicted character. In this paper, we propose a Masked and Permuted Implicit
Context Learning Network for STR, which unifies PLM and MLM within a single
decoding architecture, inheriting the advantages of both approaches. We utilize
the training procedure of PLM, and to integrate MLM, we incorporate word length
information into the decoding process by introducing specific numbers of mask
tokens. Experimental results demonstrate that our proposed model achieves
state-of-the-art performance on standard benchmarks using both AR and NAR
decoding procedures.
- Abstract(参考訳): Scene Text Recognition (STR) は、テキストスタイル、形状、背景の変化のために難しいタスクである。
言語情報を組み込むことはSTRモデルの堅牢性を高める効果的な方法である。
既存の手法は、permuted language modeling (PLM) または masked language modeling (MLM) を使用して、permuted autoregressive (AR) LMs training または Iterative non-autoregressive (NAR) decoding procedure のアンサンブルを通じて、文脈情報を暗黙的に学習する。
PLMのARデコーディングは将来の文字に関する情報の不足をもたらすが、MLMはテキスト全体のグローバルな情報を提供するが、予測された文字間の依存関係は無視する。
本稿では,単一の復号化アーキテクチャ内でplmとmlmを統一し,両者の利点を継承する,strのためのマスキングおよび置換型暗黙的コンテキスト学習ネットワークを提案する。
我々は PLM のトレーニング手順を利用し、MLM を統合するために、特定の数のマスクトークンを導入して、単語長情報を復号処理に組み込む。
実験の結果,提案手法はARおよびNAR復号処理の両方を用いて,標準ベンチマーク上での最先端性能を実現することが示された。
関連論文リスト
- PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。