論文の概要: Transferring General Multimodal Pretrained Models to Text Recognition
- arxiv url: http://arxiv.org/abs/2212.09297v1
- Date: Mon, 19 Dec 2022 08:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:42:08.892608
- Title: Transferring General Multimodal Pretrained Models to Text Recognition
- Title(参考訳): 汎用マルチモーダル事前学習モデルによるテキスト認識
- Authors: Junyang Lin, Xuancheng Ren, Yichang Zhang, Gao Liu, Peng Wang, An
Yang, Chang Zhou
- Abstract要約: 我々は文字認識を画像キャプションとして再キャストし、統合された視覚言語事前学習モデルを直接エンドタスクに転送する。
OCRパイプラインをOFA-OCRで構築し、製品レベルのAPIと競合する性能を実現することを実証する。
- 参考スコア(独自算出の注目度): 46.33867696799362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new method, OFA-OCR, to transfer multimodal pretrained
models to text recognition. Specifically, we recast text recognition as image
captioning and directly transfer a unified vision-language pretrained model to
the end task. Without pretraining on large-scale annotated or synthetic text
recognition data, OFA-OCR outperforms the baselines and achieves
state-of-the-art performance in the Chinese text recognition benchmark.
Additionally, we construct an OCR pipeline with OFA-OCR, and we demonstrate
that it can achieve competitive performance with the product-level API. The
code (https://github.com/OFA-Sys/OFA) and demo
(https://modelscope.cn/studios/damo/ofa_ocr_pipeline/summary) are publicly
available.
- Abstract(参考訳): 本稿では,マルチモーダル事前学習モデルをテキスト認識に転送する新しい手法OFA-OCRを提案する。
具体的には、テキスト認識を画像キャプションとして再キャストし、統一された視覚言語訓練モデルを直接最終タスクに転送する。
大規模な注釈付きまたは合成テキスト認識データを事前学習することなく、OFA-OCRはベースラインを上回り、中国のテキスト認識ベンチマークで最先端のパフォーマンスを達成する。
さらに,OFA-OCRを用いたOCRパイプラインを構築し,製品レベルのAPIと競合する性能が得られることを示す。
コード(https://github.com/OFA-Sys/OFA)とデモ(https://modelscope.cn/studios/damo/ofa_ocr_pipeline/summary)が公開されている。
関連論文リスト
- Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Fuzzy Fingerprinting Transformer Language-Models for Emotion Recognition
in Conversations [0.7874708385247353]
会話における感情認識(ERC)を実現するための2つのアプローチを組み合わせることを提案する。
我々は,事前に訓練したRoBERTaに発話と以前の会話のターンを供給し,文脈的埋め込み発話表現を得る。
広く使われているDailyDialog ERCベンチマークデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-08T12:26:01Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Generating Human Readable Transcript for Automatic Speech Recognition
with Pre-trained Language Model [18.26945997660616]
多くの下流のタスクと人間の読者は、ASRシステムの出力に依存しています。
本稿では,不正かつノイズの多いASR出力を可読テキストに変換することを目的としたASR後処理モデルを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。