Fugu-MT 論文翻訳(概要): Adaptive Text Recognition through Visual Matching

論文の概要: Adaptive Text Recognition through Visual Matching

arxiv url: http://arxiv.org/abs/2009.06610v1
Date: Mon, 14 Sep 2020 17:48:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 12:43:21.404208
Title: Adaptive Text Recognition through Visual Matching
Title（参考訳）: 視覚マッチングによる適応的テキスト認識
Authors: Chuhan Zhang, Ankush Gupta, Andrew Zisserman
Abstract要約: 言語における文字の反復性を利用した新しいモデルを提案する。これにより、テキスト認識を形状整合問題に変換する。従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
参考スコア（独自算出の注目度）: 86.40870804449737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, our objective is to address the problems of generalization and flexibility for text recognition in documents. We introduce a new model that exploits the repetitive nature of characters in languages, and decouples the visual representation learning and linguistic modelling stages. By doing this, we turn text recognition into a shape matching problem, and thereby achieve generalization in appearance and flexibility in classes. We evaluate the new model on both synthetic and real datasets across different alphabets and show that it can handle challenges that traditional architectures are not able to solve without expensive retraining, including: (i) it can generalize to unseen fonts without new exemplars from them; (ii) it can flexibly change the number of classes, simply by changing the exemplars provided; and (iii) it can generalize to new languages and new characters that it has not been trained for by providing a new glyph set. We show significant improvements over state-of-the-art models for all these cases.
Abstract（参考訳）: 本研究の目的は文書におけるテキスト認識の一般化と柔軟性の問題に対処することである。言語における文字の反復的性質を生かした新しいモデルを導入し,視覚表現学習と言語モデリングの段階を分離する。これにより,テキスト認識を形状マッチング問題にし,クラスにおける外観と柔軟性の一般化を実現する。さまざまなアルファベットにまたがる合成データと実データの両方で新しいモデルを評価し、従来のアーキテクチャが高価なリトレーニングなしでは解決できない課題に対処できることを示します。 (i)新しい見本のないフォントに一般化することができる。 (ii)単に提供された例を変更すれば、柔軟にクラス数を変更することができる。 (iii)新しいグリフセットを提供することで、訓練されていない新しい言語や新しい文字に一般化することができる。これらすべてのケースで最先端モデルを大幅に改善しています。

関連論文リスト

Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition [3.667678728817253]
文書中の新しいスクリプトパターンのシーケンスを分類するために,Multimodal In-Context Learning (MICL)を活用するマルチモーダルモデルであるRosettaを導入する。提案手法の重要な強みは,オープン語彙分類を可能にするコンテキスト認識トークンライザ(CAT)を使用することである。結果として、新しいアルファベットや言語の認識などのアプリケーションをアンロックする。
論文参考訳（メタデータ） (2025-04-09T12:58:25Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文参考訳（メタデータ） (2024-08-28T09:07:30Z)
We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文参考訳（メタデータ） (2024-04-10T18:56:53Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
Text-driven Prompt Generation for Vision-Language Models in Federated Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。 FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。 9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文参考訳（メタデータ） (2023-10-09T19:57:24Z)
Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文参考訳（メタデータ） (2023-04-04T14:34:44Z)
Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文参考訳（メタデータ） (2022-07-09T01:56:35Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
Towards Open-Set Text Recognition via Label-to-Prototype Learning [18.06730376866086]
モデルを再学習することなく,新しい文字を扱えるラベルとプロトタイプの学習フレームワークを提案する。多くの実験により,提案手法は様々なゼロショット,クローズセット,オープンセットのテキスト認識データセット上で有望な性能を達成できることが示されている。
論文参考訳（メタデータ） (2022-03-10T06:22:51Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)
Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文参考訳（メタデータ） (2021-09-10T20:37:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。