論文の概要: Multimodal Semi-Supervised Learning for Text Recognition
- arxiv url: http://arxiv.org/abs/2205.03873v1
- Date: Sun, 8 May 2022 13:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 13:28:13.077505
- Title: Multimodal Semi-Supervised Learning for Text Recognition
- Title(参考訳): テキスト認識のためのマルチモーダル半教師付き学習
- Authors: Aviad Aberdam, Roy Ganz, Shai Mazor, Ron Litman
- Abstract要約: 本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
新たなセットアップでは、各モダリティに個別に一貫性が強制される。
- 参考スコア(独自算出の注目度): 10.33262222726707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Until recently, the number of public real-world text images was insufficient
for training scene text recognizers. Therefore, most modern training methods
rely on synthetic data and operate in a fully supervised manner. Nevertheless,
the amount of public real-world text images has increased significantly lately,
including a great deal of unlabeled data. Leveraging these resources requires
semi-supervised approaches; however, the few existing methods do not account
for vision-language multimodality structure and therefore suboptimal for
state-of-the-art multimodal architectures. To bridge this gap, we present
semi-supervised learning for multimodal text recognizers (SemiMTR) that
leverages unlabeled data at each modality training phase. Notably, our method
refrains from extra training stages and maintains the current three-stage
multimodal training procedure. Our algorithm starts by pretraining the vision
model through a single-stage training that unifies self-supervised learning
with supervised training. More specifically, we extend an existing visual
representation learning algorithm and propose the first contrastive-based
method for scene text recognition. After pretraining the language model on a
text corpus, we fine-tune the entire network via a sequential, character-level,
consistency regularization between weakly and strongly augmented views of text
images. In a novel setup, consistency is enforced on each modality separately.
Extensive experiments validate that our method outperforms the current training
schemes and achieves state-of-the-art results on multiple scene text
recognition benchmarks.
- Abstract(参考訳): 近年まで、実世界のテキスト画像の数はシーンテキスト認識者の訓練には不十分であった。
したがって、現代のほとんどの訓練方法は合成データに依存し、完全に教師された方法で運用されている。
それでも、公的な現実世界のテキスト画像の量は、大量のラベルのないデータを含む、最近著しく増加している。
これらのリソースを活用するには半教師付きアプローチが必要だが、視覚言語によるマルチモダリティ構造や最先端のマルチモダリティアーキテクチャを考慮しない既存の手法は少ない。
このギャップを埋めるために、各モダリティ訓練段階におけるラベルなしデータを活用するマルチモーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
特に,本手法は,現在3段階のマルチモーダルトレーニング手順を維持している。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
より具体的には、既存の視覚表現学習アルゴリズムを拡張し、シーンテキスト認識のための最初のコントラストベース手法を提案する。
テキストコーパス上で言語モデルを事前トレーニングした後、テキストイメージの弱みと強みのビュー間の逐次的、文字レベル、一貫性の規則化を通じて、ネットワーク全体を微調整する。
新たなセットアップでは、各モダリティに対して一貫性を別々に実施する。
大規模な実験により,本手法が現在のトレーニング手法より優れており,複数のシーンテキスト認識ベンチマークで最先端の結果が得られた。
関連論文リスト
- mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。