論文の概要: Is it an i or an l: Test-time Adaptation of Text Line Recognition Models
- arxiv url: http://arxiv.org/abs/2308.15037v1
- Date: Tue, 29 Aug 2023 05:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:39:02.574986
- Title: Is it an i or an l: Test-time Adaptation of Text Line Recognition Models
- Title(参考訳): i か l: テキストライン認識モデルのテスト時間適応か
- Authors: Debapriya Tula, Sujoy Paul, Gagan Madan, Peter Garst, Reeve Ingle,
Gaurav Aggarwal
- Abstract要約: テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
- 参考スコア(独自算出の注目度): 9.149602257966917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing text lines from images is a challenging problem, especially for
handwritten documents due to large variations in writing styles. While text
line recognition models are generally trained on large corpora of real and
synthetic data, such models can still make frequent mistakes if the handwriting
is inscrutable or the image acquisition process adds corruptions, such as
noise, blur, compression, etc. Writing style is generally quite consistent for
an individual, which can be leveraged to correct mistakes made by such models.
Motivated by this, we introduce the problem of adapting text line recognition
models during test time. We focus on a challenging and realistic setting where,
given only a single test image consisting of multiple text lines, the task is
to adapt the model such that it performs better on the image, without any
labels. We propose an iterative self-training approach that uses feedback from
the language model to update the optical model, with confident self-labels in
each iteration. The confidence measure is based on an augmentation mechanism
that evaluates the divergence of the prediction of the model in a local region.
We perform rigorous evaluation of our method on several benchmark datasets as
well as their corrupted versions. Experimental results on multiple datasets
spanning multiple scripts show that the proposed adaptation method offers an
absolute improvement of up to 8% in character error rate with just a few
iterations of self-training at test time.
- Abstract(参考訳): 画像からテキスト行を認識することは難しい問題であり、特に筆跡のバリエーションが大きい手書き文書では問題となる。
テキスト行認識モデルは通常、実データや合成データで訓練されるが、手書き文字が精査できない場合や画像取得プロセスがノイズやぼやけ、圧縮などの汚職をもたらす場合、そのようなモデルは頻繁に誤りを犯すことがある。
書式は一般に個人にとって非常に一貫性があり、そのようなモデルが犯した誤りを正すために利用することができる。
そこで本研究では,テスト中にテキスト列認識モデルを適用する問題を提案する。
我々は、複数のテキスト行からなる単一のテスト画像のみを与えられた場合、ラベル無しで、画像上でより良く機能するようにモデルを適用するという、挑戦的で現実的な設定に焦点をあてる。
本稿では,言語モデルからのフィードバックを用いて,各イテレーションに自信のある自己ラベルを付けて光モデルを更新する反復的自己学習手法を提案する。
信頼度尺度は、局所的な領域におけるモデルの予測のばらつきを評価する拡張メカニズムに基づいている。
提案手法の厳密な評価を,いくつかのベンチマークデータセットと,その破損したバージョンで行う。
複数のスクリプトにまたがる複数のデータセットの実験結果から,提案手法はテスト時に数回の自己学習を行うだけで,文字誤り率を最大8%向上させることができた。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - LANCE: Stress-testing Visual Models by Generating Language-guided
Counterfactual Images [20.307968197151897]
言語誘導型対実テスト画像(LANCE)を生成することにより、訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。
提案手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を利用して,モデル重みを変更することなく,多種多様で現実的で挑戦的なテスト画像の集合を用いてIIDテストセットを増強する。
論文 参考訳(メタデータ) (2023-05-30T16:09:16Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。