論文の概要: Platypus: A Generalized Specialist Model for Reading Text in Various Forms
- arxiv url: http://arxiv.org/abs/2408.14805v1
- Date: Tue, 27 Aug 2024 06:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:54:56.752933
- Title: Platypus: A Generalized Specialist Model for Reading Text in Various Forms
- Title(参考訳): Platypus: 様々な形式でテキストを読むための一般化されたスペシャリストモデル
- Authors: Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao,
- Abstract要約: テキスト読解のための一般化されたスペシャリストモデルであるPlatypusを提案する。
Platypusは、様々な形式のテキストを単一の統一アーキテクチャで認識できるという、両方の世界の長所を兼ね備えている。
標準ベンチマーク実験では、提案したPlatypusモデルの有効性と優位性を示す。
- 参考スコア(独自算出の注目度): 36.984312836710586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reading text from images (either natural scenes or documents) has been a long-standing research topic for decades, due to the high technical challenge and wide application range. Previously, individual specialist models are developed to tackle the sub-tasks of text reading (e.g., scene text recognition, handwritten text recognition and mathematical expression recognition). However, such specialist models usually cannot effectively generalize across different sub-tasks. Recently, generalist models (such as GPT-4V), trained on tremendous data in a unified way, have shown enormous potential in reading text in various scenarios, but with the drawbacks of limited accuracy and low efficiency. In this work, we propose Platypus, a generalized specialist model for text reading. Specifically, Platypus combines the best of both worlds: being able to recognize text of various forms with a single unified architecture, while achieving excellent accuracy and high efficiency. To better exploit the advantage of Platypus, we also construct a text reading dataset (called Worms), the images of which are curated from previous datasets and partially re-labeled. Experiments on standard benchmarks demonstrate the effectiveness and superiority of the proposed Platypus model. Model and data will be made publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
- Abstract(参考訳): 画像からテキストを読むこと(自然のシーンや文書)は、技術上の課題と幅広い応用範囲のために、長年にわたって研究されてきたトピックである。
これまでは、テキスト読解のサブタスク(シーンテキスト認識、手書きテキスト認識、数学的表現認識など)に取り組むために、個別のスペシャリストモデルが開発されてきた。
しかしながら、そのようなスペシャリストモデルは、通常、異なるサブタスク間で効果的に一般化することはできない。
近年, GPT-4V のような一般化的モデルは, 様々なシナリオにおいてテキストを読む上で大きな可能性を秘めているが, 限られた精度と低効率の欠点がある。
本研究では,テキスト読解のための一般化されたスペシャリストモデルであるPlatypusを提案する。
具体的には、Platypusは、様々な形式のテキストを単一の統一アーキテクチャで認識できると同時に、優れた精度と高い効率を実現している。
また、Platypusの利点をよりうまく活用するために、テキスト読解データセット(Wormsと呼ばれる)を構築し、その画像は以前のデータセットからキュレートされ、部分的に再ラベルされる。
標準ベンチマーク実験では、提案したPlatypusモデルの有効性と優位性を示す。
モデルとデータはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypusで公開される。
関連論文リスト
- Generalized Tampered Scene Text Detection in the era of Generative AI [33.38946428507517]
提案手法は,視覚的および見えない偽造型の両方を識別する能力について,法医学モデルの評価を行う。
本稿では,画像中の選択したテキストのテクスチャを微調整し,これらの領域を特定するためにモデルを訓練する,新しい,効果的な事前学習パラダイムを提案する。
また,テキストの特徴を識別することで,オープンセットの一般化を改善するフレームワークであるDAFを提案する。
論文 参考訳(メタデータ) (2024-07-31T08:17:23Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文 参考訳(メタデータ) (2023-02-08T04:19:24Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。
まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文 参考訳(メタデータ) (2021-07-26T10:10:34Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。