Fugu-MT 論文翻訳(概要): Masked and Permuted Implicit Context Learning for Scene Text Recognition

論文の概要: Masked and Permuted Implicit Context Learning for Scene Text Recognition

arxiv url: http://arxiv.org/abs/2305.16172v2
Date: Wed, 20 Dec 2023 07:10:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 22:11:42.684144
Title: Masked and Permuted Implicit Context Learning for Scene Text Recognition
Title（参考訳）: シーンテキスト認識のためのマスキングおよび置換暗黙的文脈学習
Authors: Xiaomeng Yang, Zhi Qiao, Jin Wei, Dongbao Yang, Yu Zhou
Abstract要約: シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
参考スコア（独自算出の注目度）: 8.742571493814326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene Text Recognition (STR) is difficult because of the variations in text styles, shapes, and backgrounds. Though the integration of linguistic information enhances models' performance, existing methods based on either permuted language modeling (PLM) or masked language modeling (MLM) have their pitfalls. PLM's autoregressive decoding lacks foresight into subsequent characters, while MLM overlooks inter-character dependencies. Addressing these problems, we propose a masked and permuted implicit context learning network for STR, which unifies PLM and MLM within a single decoder, inheriting the advantages of both approaches. We utilize the training procedure of PLM, and to integrate MLM, we incorporate word length information into the decoding process and replace the undetermined characters with mask tokens. Besides, perturbation training is employed to train a more robust model against potential length prediction errors. Our empirical evaluations demonstrate the performance of our model. It not only achieves superior performance on the common benchmarks but also achieves a substantial improvement of $9.1\%$ on the more challenging Union14M-Benchmark.
Abstract（参考訳）: 場面のテキスト認識(str)は、テキストのスタイル、形状、背景が多様であるため困難である。言語情報の統合によりモデルの性能が向上するが、置換言語モデリング(PLM)またはマスキング言語モデリング(MLM)に基づく既存の手法には落とし穴がある。 PLMの自己回帰復号法は後続の文字に対する監視を欠いているが、MLMはキャラクタ間の依存関係を見落としている。これらの問題に対処するため,STR の暗黙的文脈学習ネットワークを提案する。このネットワークは PLM と MLM を1つのデコーダに統一し,両方のアプローチの利点を継承する。我々は、PLMのトレーニング手順を利用し、MLMを統合するために、単語長情報を復号処理に組み込み、未決定文字をマスクトークンに置き換える。また、潜在的な長さ予測誤差に対してより堅牢なモデルをトレーニングするために摂動訓練が用いられる。我々の経験的評価は、我々のモデルの性能を示す。一般的なベンチマークで優れたパフォーマンスを達成するだけでなく、より挑戦的なUnion14M-Benchmarkで9.1\%の大幅な改善を達成している。

関連論文リスト

GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文参考訳（メタデータ） (2025-06-04T18:02:07Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。 HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。 HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文参考訳（メタデータ） (2025-03-11T17:08:54Z)
From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。 13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文参考訳（メタデータ） (2025-02-13T09:04:28Z)
ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models [11.997499811414837]
Masked Language Models (ML)Mssは入力シーケンスの部分を[MASK]トークンでランダムにマスキングしてトレーニングし、残りのコンテキストに基づいて元のコンテンツを再構築する。
論文参考訳（メタデータ） (2025-01-23T05:46:50Z)
PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文参考訳（メタデータ） (2024-10-30T15:05:17Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。 MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2024-06-16T15:50:10Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。 GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文参考訳（メタデータ） (2023-02-04T01:54:17Z)
Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。 PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文参考訳（メタデータ） (2022-08-23T08:27:52Z)
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文参考訳（メタデータ） (2020-02-28T15:28:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。