論文の概要: MSdocTr-Lite: A Lite Transformer for Full Page Multi-script Handwriting
Recognition
- arxiv url: http://arxiv.org/abs/2303.13931v1
- Date: Fri, 24 Mar 2023 11:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:47:31.713097
- Title: MSdocTr-Lite: A Lite Transformer for Full Page Multi-script Handwriting
Recognition
- Title(参考訳): MSdocTr-Lite: フルページマルチスクリプト手書き文字認識のためのリテラル変換器
- Authors: Marwa Dhiaf, Ahmed Cheikh Rouhou, Yousri Kessentini, Sinda Ben Salem
- Abstract要約: フルページマルチスクリプト手書き文字認識のためのライトトランスアーキテクチャを提案する。
提案されたモデルには3つの利点がある。
カリキュラム学習戦略により,ページレベルの読み順を学習することができる。
簡単なトランスファー学習プロセスを適用することで、他のスクリプトに容易に適応できる。
- 参考スコア(独自算出の注目度): 3.0682439731292592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer has quickly become the dominant architecture for various
pattern recognition tasks due to its capacity for long-range representation.
However, transformers are data-hungry models and need large datasets for
training. In Handwritten Text Recognition (HTR), collecting a massive amount of
labeled data is a complicated and expensive task. In this paper, we propose a
lite transformer architecture for full-page multi-script handwriting
recognition. The proposed model comes with three advantages: First, to solve
the common problem of data scarcity, we propose a lite transformer model that
can be trained on a reasonable amount of data, which is the case of most HTR
public datasets, without the need for external data. Second, it can learn the
reading order at page-level thanks to a curriculum learning strategy, allowing
it to avoid line segmentation errors, exploit a larger context and reduce the
need for costly segmentation annotations. Third, it can be easily adapted to
other scripts by applying a simple transfer-learning process using only
page-level labeled images. Extensive experiments on different datasets with
different scripts (French, English, Spanish, and Arabic) show the effectiveness
of the proposed model.
- Abstract(参考訳): トランスフォーマーは、長距離表現能力のため、様々なパターン認識タスクにおいて急速に支配的なアーキテクチャとなっている。
しかし、トランスフォーマーはデータハングリーモデルであり、トレーニングには大きなデータセットが必要です。
手書き文字認識(HTR)では、大量のラベル付きデータを収集することは複雑で高価な作業である。
本稿では,フルページマルチスクリプト手書き文字認識のためのライトトランスアーキテクチャを提案する。
提案モデルには3つの利点がある: まず、データ不足の一般的な問題を解決するために、ほとんどのHTRパブリックデータセットにおいて、外部データを必要とせずに、適切な量のデータに基づいてトレーニングできるライトトランスフォーマーモデルを提案する。
第二に、カリキュラムの学習戦略のおかげでページレベルでの読み込み順序を学習でき、行分割エラーを避け、より大きなコンテキストを活用し、コストのかかるセグメンテーションアノテーションの必要性を減らすことができる。
第3に、ページレベルのラベル付き画像のみを使用して、簡単なトランスファー学習プロセスを適用することで、他のスクリプトに容易に適応できる。
異なるスクリプト(フランス語、英語、スペイン語、アラビア語)の異なるデータセットに関する広範な実験は、提案モデルの有効性を示している。
関連論文リスト
- Label Anything: An Interpretable, High-Fidelity and Prompt-Free Annotator [29.2532061585323]
従来の手動ラベリングは、ロバストモデルをトレーニングするために大量のデータに注釈を付けるのに高コストである。
本稿では,解釈可能な高忠実度データアノテータとして機能するラベル随伴モデル (LAM) を提案する。
LAMは複数の実世界のデータセットに対して高忠実度アノテーション(ほぼ100%mIoU)を生成することができる。
論文 参考訳(メタデータ) (2025-02-05T08:14:52Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Efficient Pre-training for Localized Instruction Generation of Videos [32.13509517228516]
手続きビデオはステップバイステップの指示を伝えるのに役立ちます。
Process Transformer (ProcX) は、プロシージャビデオのエンドツーエンドのステップローカライズと命令生成のためのモデルである。
論文 参考訳(メタデータ) (2023-11-27T16:07:37Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - All Birds with One Stone: Multi-task Text Classification for Efficient
Inference with One Forward Pass [34.85886030306857]
Webコンテンツ分類では、Web記事のような同じ入力テキストから複数の分類タスクを予測する。
既存のマルチタスクトランスモデルは、O(N)コストでNタスクに対してNフォワードパスを実行する必要がある。
本稿では,O(1)計算コストを1つのフォワードパスのみに設定することで,高い性能を実現するスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2022-05-22T05:16:03Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Revisiting Transformer-based Models for Long Document Classification [31.60414185940218]
実世界のアプリケーションでは、マルチページのマルチパラグラフ文書が一般的であり、バニラトランスフォーマーベースのモデルでは効率的にエンコードできない。
本稿では,変圧器の計算オーバーヘッドを軽減するために,トランスフォーマーを用いた長期文書分類(TrLDC)手法を比較した。
我々は、より長いテキストを処理できることの明確な利点を観察し、その結果に基づいて、長い文書分類タスクにTransformerベースのモデルを適用する実践的なアドバイスを導き出す。
論文 参考訳(メタデータ) (2022-04-14T00:44:36Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。