論文の概要: Towards Robust Handwritten Text Recognition with On-the-fly User
Participation
- arxiv url: http://arxiv.org/abs/2212.08834v1
- Date: Sat, 17 Dec 2022 10:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:25:16.335381
- Title: Towards Robust Handwritten Text Recognition with On-the-fly User
Participation
- Title(参考訳): オンザフライユーザ参加によるロバスト手書き文字認識に向けて
- Authors: Ajoy Mondal, Rohit saluja, and C. V. Jawahar
- Abstract要約: 長期OCRサービスは、競争力のあるコストで高品質なアウトプットをユーザに提供することを目的としている。
ユーザによってロードされる複雑なデータのために、モデルのアップグレードが不可欠です。
本稿では,既存のHindi OCRモデルに対して,ユーザ15人のデータセットを3回更新する戦略を提案する。
- 参考スコア(独自算出の注目度): 28.65687982486627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term OCR services aim to provide high-quality output to their users at
competitive costs. It is essential to upgrade the models because of the complex
data loaded by the users. The service providers encourage the users who provide
data where the OCR model fails by rewarding them based on data complexity,
readability, and available budget. Hitherto, the OCR works include preparing
the models on standard datasets without considering the end-users. We propose a
strategy of consistently upgrading an existing Handwritten Hindi OCR model
three times on the dataset of 15 users. We fix the budget of 4 users for each
iteration. For the first iteration, the model directly trains on the dataset
from the first four users. For the rest iteration, all remaining users write a
page each, which service providers later analyze to select the 4 (new) best
users based on the quality of predictions on the human-readable words. Selected
users write 23 more pages for upgrading the model. We upgrade the model with
Curriculum Learning (CL) on the data available in the current iteration and
compare the subset from previous iterations. The upgraded model is tested on a
held-out set of one page each from all 23 users. We provide insights into our
investigations on the effect of CL, user selection, and especially the data
from unseen writing styles. Our work can be used for long-term OCR services in
crowd-sourcing scenarios for the service providers and end users.
- Abstract(参考訳): 長期OCRサービスは競争力のあるコストでユーザに対して高品質なアウトプットを提供することを目的としている。
ユーザがロードする複雑なデータのために、モデルをアップグレードすることが不可欠である。
サービスプロバイダは、データの複雑さ、可読性、利用可能な予算に基づいて、OCRモデルが失敗するデータを提供するユーザを奨励します。
OCRの作業には、エンドユーザを考慮せずに、標準データセット上でモデルを準備することが含まれる。
本稿では,既存のHindi OCRモデルを15ユーザデータセット上で3回更新する戦略を提案する。
イテレーション毎に4ユーザという予算を修正します。
最初のイテレーションでは、モデルが最初の4ユーザからデータセットを直接トレーニングする。
残りのイテレーションでは、残りのユーザー全員が各ページにページを書き、その後、サービスプロバイダーは人間の読みやすい単語の予測の質に基づいて4つの(新しい)ベストユーザーを選択する。
選択したユーザは、モデルをアップグレードするためにさらに23ページを書きます。
現在のイテレーションで利用可能なデータに基づいて、Curriculum Learning (CL)でモデルをアップグレードし、以前のイテレーションのサブセットと比較します。
アップグレードされたモデルは、23ユーザすべてから1ページの保持されたセットでテストされる。
我々は,CLの効果,ユーザ選択,特に目に見えない書き込みスタイルのデータに対する調査の洞察を提供する。
当社の作業は、サービスプロバイダとエンドユーザのクラウドソーシングシナリオにおいて、長期的なOCRサービスに使用することができます。
関連論文リスト
- Personalized and Sequential Text-to-Image Generation [24.787970969428976]
我々は、大規模なオープンソース(非シーケンシャル)データセットとともに、シーケンシャルな選好の新たなデータセットを作成します。
EM戦略を用いてユーザ嗜好モデルとユーザ選択モデルを構築し,様々なユーザ嗜好タイプを同定する。
次に、大きなマルチモーダル言語モデル(LMM)と価値に基づくRLアプローチを活用し、ユーザに対してパーソナライズされ多様な拡張のスレートを提案する。
論文 参考訳(メタデータ) (2024-12-10T01:47:40Z) - Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。
従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。
本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文 参考訳(メタデータ) (2024-10-04T22:21:43Z) - User Persona Identification and New Service Adaptation Recommendation [9.012198585960443]
本稿では,Webページ上のユーザセッションから高次元軌跡情報を活用することによって,ユーザペルソナの自動識別手法を提案する。
本手法では,マスク付き言語モデリング(mlm)の目的に対して,スクラッチから学習したトランスフォーマー支援言語モデルであるSessionBERTを導入する。
その結果,SessionBERTで学習した表現はBERTベースモデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-15T22:11:39Z) - Writing user personas with Large Language Models: Testing phase 6 of a
Thematic Analysis of semi-structured interviews [0.0]
本論文の目的は,大規模言語モデル(より正確には GPT3.5-Turbo)を用いて,半構造化インタビューの主題解析(TA)を満足して行うことができるかを確立することである。
本論文は,本モデルが基本的ユーザペルソナをテーマから派生した許容品質で構築し,そのモデルがユーザペルソナのアイデア生成に役立つことを示す。
論文 参考訳(メタデータ) (2023-05-29T14:09:14Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文 参考訳(メタデータ) (2022-02-25T21:30:48Z) - A Cooperative Memory Network for Personalized Task-oriented Dialogue
Systems with Incomplete User Profiles [55.951126447217526]
ユーザプロファイルの完成を前提とせず,タスク指向対話システムについて検討する。
ユーザプロファイルを徐々に強化する新しいメカニズムを持つ協調記憶ネットワーク(CoMemNN)を提案する。
CoMemNNは、ユーザープロファイルを効果的に強化することができ、応答選択精度の点で3.6%の改善につながります。
論文 参考訳(メタデータ) (2021-02-16T18:05:54Z) - Examination and Extension of Strategies for Improving Personalized
Language Modeling via Interpolation [59.35932511895986]
我々は,グローバルLSTMベースのオーサリングモデルをユーザ個人化n-gramモデルで補間することにより,ユーザレベルでのオフラインメトリクスの改善を示す。
利用者の80%以上がパープレキシティのリフトを受けており、ユーザー当たり平均5.2%がパープレキシティのリフトを受け取っている。
論文 参考訳(メタデータ) (2020-06-09T19:29:41Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive
Model Selection [110.87712780017819]
推薦システムにおけるユーザレベルの適応モデル選択を容易にするメタラーニングフレームワークを提案する。
2つのパブリックデータセットと実世界のプロダクションデータセットで実験を行います。
論文 参考訳(メタデータ) (2020-01-22T16:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。