論文の概要: The Learnable Typewriter: A Generative Approach to Text Analysis
- arxiv url: http://arxiv.org/abs/2302.01660v3
- Date: Fri, 14 Apr 2023 14:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:16:03.139612
- Title: The Learnable Typewriter: A Generative Approach to Text Analysis
- Title(参考訳): learnable typewriter:テキスト解析のための生成的アプローチ
- Authors: Ioannis Siglidis, Nicolas Gonthier, Julien Gaubil, Tom Monnier and
Mathieu Aubry
- Abstract要約: テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
- 参考スコア(独自算出の注目度): 17.355857281085164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a generative document-specific approach to character analysis and
recognition in text lines. Our main idea is to build on unsupervised
multi-object segmentation methods and in particular those that reconstruct
images based on a limited amount of visual elements, called sprites. Taking as
input a set of text lines with similar font or handwriting, our approach can
learn a large number of different characters and leverage line-level
annotations when available. Our contribution is twofold. First, we provide the
first adaptation and evaluation of a deep unsupervised multi-object
segmentation approach for text line analysis. Since these methods have mainly
been evaluated on synthetic data in a completely unsupervised setting,
demonstrating that they can be adapted and quantitatively evaluated on real
images of text and that they can be trained using weak supervision are
significant progresses. Second, we show the potential of our method for new
applications, more specifically in the field of paleography, which studies the
history and variations of handwriting, and for cipher analysis. We demonstrate
our approach on three very different datasets: a printed volume of the
Google1000 dataset, the Copiale cipher and historical handwritten charters from
the 12th and early 13th century.
- Abstract(参考訳): テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
私たちの主なアイデアは、教師なしのマルチオブジェクトセグメンテーションメソッド、特にスプライトと呼ばれる限られた量のビジュアル要素に基づいてイメージを再構築するメソッドを構築することです。
同様のフォントや手書きのテキスト行を入力として,多数の異なる文字を学習し,利用可能な行レベルのアノテーションを活用する。
私たちの貢献は2倍です。
まず,テキスト行解析のための深層非教師付き多目的セグメンテーション手法の適応と評価を行う。
これらの手法は、主に合成データに対して完全に教師なしの設定で評価されているため、テキストの実際の画像に適応・定量的に評価でき、弱い監督で訓練できることを示すことは大きな進歩である。
第2に,本手法の新たな応用の可能性,特に手書きの歴史とバリエーションを研究対象とする古文書学の分野,および暗号解析への応用の可能性を示す。
Google1000データセットの印刷ボリューム、Copiale暗号、12世紀から13世紀初頭の歴史的な手書きのチャーターである。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Whole page recognition of historical handwriting [1.2183405753834562]
そこで本研究では,手書きページを受信し,その全文を転写するテキストローカライゼーションを伴わないエンドツーエンド推論手法について検討する。
明示的な文字や単語や行のセグメンテーションは推論にかかわらないため、我々はこのアプローチを「セグメンテーションフリー」と呼ぶ。
テキストのローカライゼーションやセグメンテーションを伴わないページ全体の推論手法が競合していると結論付けている。
論文 参考訳(メタデータ) (2020-09-22T15:46:33Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。