論文の概要: Adaptive Text Recognition through Visual Matching
- arxiv url: http://arxiv.org/abs/2009.06610v1
- Date: Mon, 14 Sep 2020 17:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:43:21.404208
- Title: Adaptive Text Recognition through Visual Matching
- Title(参考訳): 視覚マッチングによる適応的テキスト認識
- Authors: Chuhan Zhang, Ankush Gupta, Andrew Zisserman
- Abstract要約: 言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
- 参考スコア(独自算出の注目度): 86.40870804449737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, our objective is to address the problems of generalization and
flexibility for text recognition in documents. We introduce a new model that
exploits the repetitive nature of characters in languages, and decouples the
visual representation learning and linguistic modelling stages. By doing this,
we turn text recognition into a shape matching problem, and thereby achieve
generalization in appearance and flexibility in classes. We evaluate the new
model on both synthetic and real datasets across different alphabets and show
that it can handle challenges that traditional architectures are not able to
solve without expensive retraining, including: (i) it can generalize to unseen
fonts without new exemplars from them; (ii) it can flexibly change the number
of classes, simply by changing the exemplars provided; and (iii) it can
generalize to new languages and new characters that it has not been trained for
by providing a new glyph set. We show significant improvements over
state-of-the-art models for all these cases.
- Abstract(参考訳): 本研究の目的は文書におけるテキスト認識の一般化と柔軟性の問題に対処することである。
言語における文字の反復的性質を生かした新しいモデルを導入し,視覚表現学習と言語モデリングの段階を分離する。
これにより,テキスト認識を形状マッチング問題にし,クラスにおける外観と柔軟性の一般化を実現する。
さまざまなアルファベットにまたがる合成データと実データの両方で新しいモデルを評価し、従来のアーキテクチャが高価なリトレーニングなしでは解決できない課題に対処できることを示します。
(i)新しい見本のないフォントに一般化することができる。
(ii)単に提供された例を変更すれば、柔軟にクラス数を変更することができる。
(iii)新しいグリフセットを提供することで、訓練されていない新しい言語や新しい文字に一般化することができる。
これらすべてのケースで最先端モデルを大幅に改善しています。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image
Generation [86.65991476980648]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Text-driven Prompt Generation for Vision-Language Models in Federated
Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。
FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。
9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T19:57:24Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Towards Open-Set Text Recognition via Label-to-Prototype Learning [18.06730376866086]
モデルを再学習することなく,新しい文字を扱えるラベルとプロトタイプの学習フレームワークを提案する。
多くの実験により,提案手法は様々なゼロショット,クローズセット,オープンセットのテキスト認識データセット上で有望な性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-10T06:22:51Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。