論文の概要: Character Queries: A Transformer-based Approach to On-Line Handwritten
Character Segmentation
- arxiv url: http://arxiv.org/abs/2309.03072v1
- Date: Wed, 6 Sep 2023 15:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 14:55:16.974380
- Title: Character Queries: A Transformer-based Approach to On-Line Handwritten
Character Segmentation
- Title(参考訳): 文字クエリ: オンライン手書き文字セグメンテーションへのトランスフォーマーベースのアプローチ
- Authors: Michael Jungo, Beat Wolf, Andrii Maksai, Claudiu Musat and Andreas
Fischer
- Abstract要約: 本稿では,文字分割が代入問題となる場合に,事前に書き起こしが知られているシナリオに焦点を当てる。
k$-meansクラスタリングアルゴリズムにヒントを得て、クラスタ割り当ての観点から見た上で、Transformerベースのアーキテクチャを提示する。
提案手法の質を評価するために,2つの有名なオンライン手書きデータセットに対して,文字分割基底真理を生成する。
- 参考スコア(独自算出の注目度): 4.128716153761773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-line handwritten character segmentation is often associated with
handwriting recognition and even though recognition models include mechanisms
to locate relevant positions during the recognition process, it is typically
insufficient to produce a precise segmentation. Decoupling the segmentation
from the recognition unlocks the potential to further utilize the result of the
recognition. We specifically focus on the scenario where the transcription is
known beforehand, in which case the character segmentation becomes an
assignment problem between sampling points of the stylus trajectory and
characters in the text. Inspired by the $k$-means clustering algorithm, we view
it from the perspective of cluster assignment and present a Transformer-based
architecture where each cluster is formed based on a learned character query in
the Transformer decoder block. In order to assess the quality of our approach,
we create character segmentation ground truths for two popular on-line
handwriting datasets, IAM-OnDB and HANDS-VNOnDB, and evaluate multiple methods
on them, demonstrating that our approach achieves the overall best results.
- Abstract(参考訳): オンライン手書き文字セグメンテーションは手書き認識と関連づけられることが多く、認識モデルには認識プロセス中に関連位置を特定する機構が含まれているが、正確なセグメンテーションを作成するには不十分である。
認識からセグメンテーションを分離することは、認識の結果をさらに活用する可能性を解き放つ。
具体的には、文字分割がスタイラス軌跡のサンプリング点とテキスト中の文字間の代入問題となる場合に、予め転写が知られているシナリオに焦点を当てる。
k$-meansクラスタリングアルゴリズムに触発されて、クラスタ割り当ての観点から見て、各クラスタがtransformerデコーダブロック内の学習された文字クエリに基づいて形成される、transformerベースのアーキテクチャを提案する。
本手法の質を評価するために,2つのオンライン手書きデータセット,iam-ondb と hands-vnondb の文字セグメンテーション基底真理を作成し,その上で複数の手法を評価し,提案手法が全体的な結果を達成することを示す。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Attention based End to end network for Offline Writer Identification on Word level data [3.5829161769306244]
注意駆動型畳み込みニューラルネットワーク(CNN)に基づく著者識別システムを提案する。
このシステムは、単語画像から抽出された断片として知られる画像セグメントを利用して、ピラミッドベースの戦略を用いて訓練されている。
提案アルゴリズムの有効性を3つのベンチマークデータベースで評価した。
論文 参考訳(メタデータ) (2024-04-11T09:41:14Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - A Skip-connected Multi-column Network for Isolated Handwritten Bangla
Character and Digit recognition [12.551285203114723]
マルチスケールマルチカラムスキップ畳み込みニューラルネットワークを用いた非明示的特徴抽出手法を提案する。
本手法は,手書き文字と数字の4つの公開データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-27T13:18:58Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。