論文の概要: Meta-DAN: towards an efficient prediction strategy for page-level handwritten text recognition
- arxiv url: http://arxiv.org/abs/2504.03349v1
- Date: Fri, 04 Apr 2025 11:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:10.249553
- Title: Meta-DAN: towards an efficient prediction strategy for page-level handwritten text recognition
- Title(参考訳): Meta-DAN: ページレベルの手書き文字認識のための効率的な予測戦略に向けて
- Authors: Denis Coquenet,
- Abstract要約: 本稿では,メタドキュメント注意ネットワーク(Meta-DAN)を提案する。
提案手法を10個の全ページ手書きデータセットで評価し,文字誤り率の点から平均して最先端の結果を示す。
- 参考スコア(独自算出の注目度): 4.605037293860087
- License:
- Abstract: Recent advances in text recognition led to a paradigm shift for page-level recognition, from multi-step segmentation-based approaches to end-to-end attention-based ones. However, the na\"ive character-level autoregressive decoding process results in long prediction times: it requires several seconds to process a single page image on a modern GPU. We propose the Meta Document Attention Network (Meta-DAN) as a novel decoding strategy to reduce the prediction time while enabling a better context modeling. It relies on two main components: windowed queries, to process several transformer queries altogether, enlarging the context modeling with near future; and multi-token predictions, whose goal is to predict several tokens per query instead of only the next one. We evaluate the proposed approach on 10 full-page handwritten datasets and demonstrate state-of-the-art results on average in terms of character error rate. Source code and weights of trained models are available at https://github.com/FactoDeepLearning/meta_dan.
- Abstract(参考訳): 近年のテキスト認識の進歩により、ページレベルの認識は、多段階セグメンテーションベースのアプローチからエンドツーエンドのアテンションベースのアプローチへとパラダイムシフトした。
しかし、na\\iveキャラクタレベルの自己回帰復号処理は、現代的なGPU上で単一のページイメージを処理するのに数秒を要する、長い予測時間をもたらす。
本稿では,メタドキュメントアテンションネットワーク(Meta-DAN)を新しいデコード戦略として提案する。
ウィンドウドクエリ、複数のトランスフォーマークエリの完全処理、近未来のコンテキストモデリングの拡張、マルチトークン予測という2つの主要なコンポーネントに依存している。
提案手法を10個の全ページ手書きデータセットで評価し,文字誤り率の点から平均して最先端の結果を示す。
トレーニング済みモデルのソースコードと重み付けはhttps://github.com/FactoDeepLearning/meta_dan.comで公開されている。
関連論文リスト
- An Attempt to Unraveling Token Prediction Refinement and Identifying Essential Layers of Large Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) がいかに反復的にトークン予測を洗練するかを明らかにすることである。
我々は、LLMが入力コンテキストから情報にアクセスして利用する方法と、関連する情報の配置がモデルのトークン予測改善プロセスにどのように影響するかに焦点を当てた。
論文 参考訳(メタデータ) (2025-01-25T03:34:15Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Faster DAN: Multi-target Queries with Document Positional Encoding for
End-to-end Handwritten Document Recognition [1.7875811547963403]
より高速なDANは、予測時に認識プロセスを高速化するための2段階の戦略である。
RIMES 2009、READ 2016、MAURDORデータセットの1ページと2ページのイメージ全体の少なくとも4倍高速である。
論文 参考訳(メタデータ) (2023-01-25T13:55:14Z) - DetIE: Multilingual Open Information Extraction Inspired by Object
Detection [10.269858179091111]
コンピュータビジョンからオブジェクト検出アルゴリズムにインスパイアされたOpenIEのための新しいシングルパス方式を提案する。
マルチリンガルなRe-OIE2016では、パフォーマンス改善が15%向上し、ポルトガル語とスペイン語の両方で75%のF1に達した。
論文 参考訳(メタデータ) (2022-06-24T23:47:00Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。