論文の概要: Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach
- arxiv url: http://arxiv.org/abs/2412.11668v1
- Date: Mon, 16 Dec 2024 11:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:52.448486
- Title: Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach
- Title(参考訳): 中国語手書き句を用いたオンライン文字検索:時相表現学習の相乗的アプローチ
- Authors: Peirong Zhang, Lianwen Jin,
- Abstract要約: DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
- 参考スコア(独自算出の注目度): 35.50318959678818
- License:
- Abstract: Currently, the prevalence of online handwriting has spurred a critical need for effective retrieval systems to accurately search relevant handwriting instances from specific writers, known as online writer retrieval. Despite the growing demand, this field suffers from a scarcity of well-established methodologies and public large-scale datasets. This paper tackles these challenges with a focus on Chinese handwritten phrases. First, we propose DOLPHIN, a novel retrieval model designed to enhance handwriting representations through synergistic temporal-frequency analysis. For frequency feature learning, we propose the HFGA block, which performs gated cross-attention between the vanilla temporal handwriting sequence and its high-frequency sub-bands to amplify salient writing details. For temporal feature learning, we propose the CAIR block, tailored to promote channel interaction and reduce channel redundancy. Second, to address data deficit, we introduce OLIWER, a large-scale online writer retrieval dataset encompassing over 670,000 Chinese handwritten phrases from 1,731 individuals. Through extensive evaluations, we demonstrate the superior performance of DOLPHIN over existing methods. In addition, we explore cross-domain writer retrieval and reveal the pivotal role of increasing feature alignment in bridging the distributional gap between different handwriting data. Our findings emphasize the significance of point sampling frequency and pressure features in improving handwriting representation quality and retrieval performance. Code and dataset are available at https://github.com/SCUT-DLVCLab/DOLPHIN.
- Abstract(参考訳): 現在、オンライン手書き検索が普及し、オンライン書き手検索として知られる特定の書き手から関連手書きのインスタンスを正確に検索する効果的な検索システムの必要性が高まっている。
需要の高まりにもかかわらず、この分野は確立された方法論や大規模データセットの不足に悩まされている。
本稿では,中国語の字句に着目し,これらの課題に対処する。
まず、シナジスティック時間周波数解析による手書き表現の向上を目的とした新しい検索モデルであるDOLPHINを提案する。
周波数特徴学習のためのHFGAブロックを提案する。このブロックは、バニラの時間的手書きシーケンスとその高周波サブバンド間のゲート・アテンションを実行し、顕著な書き込みの詳細を増幅する。
時間的特徴学習のために,チャネル間相互作用の促進とチャネル冗長性の低減を目的としたCAIRブロックを提案する。
第二に,OLIWERは,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
そこで本研究では,既存手法よりもDOLPHINの方が優れた性能を示す。
さらに、ドメイン間書き込みの検索について検討し、異なる手書きデータ間の分配ギャップを埋めることにおいて、特徴アライメントを増大させる重要な役割を明らかにする。
本研究は,手書き表現の質向上と検索性能向上における点サンプリング周波数と圧力特性の重要性を強調した。
コードとデータセットはhttps://github.com/SCUT-DLVCLab/DOLPHIN.comで公開されている。
関連論文リスト
- PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。
第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。
最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文 参考訳(メタデータ) (2025-02-10T05:50:26Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Sentence-level Online Handwritten Chinese Character Recognition [36.57575120082676]
単一オンライン手書き文字認識(Single OLHCCR)は顕著な性能を発揮している。
実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて、1つの完全な文を作成します。
本稿では,文レベルのOLHCCRに対処するため,シンプルで簡単な合成ネットワークであるバニラ合成ネットワーク(VCN)を提案する。
また,文レベルOLHCCRのロバスト性を向上させるため,新しい深部時空間融合ネットワーク(DSTFN)を提案する。
論文 参考訳(メタデータ) (2021-07-04T14:26:06Z) - Towards an IMU-based Pen Online Handwriting Recognizer [2.6707647984082357]
慣性測定単位(IMU)に基づく音声認識のためのオンライン手書き認識システムを提案する。
これは、加速度、角速度、およびBluetooth経由で流れる磁力を提供するセンサー付きペンによって得られる。
本モデルは畳み込み型LSTMネットワークと双方向型LSTMネットワークを組み合わせることで,コネクショナリストの時間的分類損失をトレーニングする。
論文 参考訳(メタデータ) (2021-05-26T09:47:19Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。