論文の概要: Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2506.09846v1
- Date: Wed, 11 Jun 2025 15:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.089806
- Title: Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition
- Title(参考訳): 手書き文字認識における文字の周波数分布変化の学習
- Authors: Panagiotis Kaliosis, John Pavlopoulos,
- Abstract要約: 手書きテキスト認識は、視覚入力を機械可読テキストに変換することを目的としている。
文字集合は時間とともに変化し、文字の頻度分布は歴史的時代や地域によって変化する。
本稿では,予測されたテキストの文字頻度分布とターゲット分布とのワッサーシュタイン距離を組み込んだ新たな損失関数を提案する。
- 参考スコア(独自算出の注目度): 2.8851756275902476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten text recognition aims to convert visual input into machine-readable text, and it remains challenging due to the evolving and context-dependent nature of handwriting. Character sets change over time, and character frequency distributions shift across historical periods or regions, often causing models trained on broad, heterogeneous corpora to underperform on specific subsets. To tackle this, we propose a novel loss function that incorporates the Wasserstein distance between the character frequency distribution of the predicted text and a target distribution empirically derived from training data. By penalizing divergence from expected distributions, our approach enhances both accuracy and robustness under temporal and contextual intra-dataset shifts. Furthermore, we demonstrate that character distribution alignment can also improve existing models at inference time without requiring retraining by integrating it as a scoring function in a guided decoding scheme. Experimental results across multiple datasets and architectures confirm the effectiveness of our method in boosting generalization and performance. We open source our code at https://github.com/pkaliosis/fada.
- Abstract(参考訳): 手書きテキスト認識は、視覚入力を機械可読テキストに変換することを目的としている。
文字集合は時間とともに変化し、文字の頻度分布は歴史的時代や地域によって変化し、広範で異質なコーパスで訓練されたモデルが特定のサブセットで過小評価される。
そこで本研究では,予測テキストの文字頻度分布と,学習データから経験的に導出した目標分布とのワッサースタイン距離を組み込んだ新たな損失関数を提案する。
予測分布から逸脱することで,時間的および文脈的なデータセット内シフトの下での精度とロバスト性の両方を高めることができる。
さらに,教師付き復号方式において,文字分布アライメントをスコア関数として組み込むことで,再トレーニングを必要とせずに既存のモデルを推論時に改善できることを実証した。
複数のデータセットやアーキテクチャにまたがる実験結果から,一般化と性能向上における本手法の有効性が確認された。
ソースコードはhttps://github.com/pkaliosis/fada.comで公開しています。
関連論文リスト
- Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning [51.177789437682954]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、モデルが学習したクラスの知識を維持しつつ、新しいクラスを逐次学習できるようにすることを目的とする。
柔軟性と安定性のバランスをとることは、特にタスクIDが不明な場合には、依然として大きな課題である。
本研究では,平均シフト補償と共分散校正を組み合わせたセマンティックドリフト校正法を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:57:30Z) - Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文 参考訳(メタデータ) (2024-10-30T20:28:10Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Robust Novelty Detection through Style-Conscious Feature Ranking [7.691679448855549]
我々は、タスク関連セマンティクスまたはコンテンツ変更と無関係なスタイル変更の正式な区別を提唱する。
この区別は堅牢な新規性検出の基礎を形成し、スタイルの分布シフトに耐性のある意味変化の同定を強調している。
本稿では,事前学習した大規模モデル表現を用いて環境バイアスのある特徴を選択的に破棄する手法であるStylistを紹介する。
論文 参考訳(メタデータ) (2023-10-05T17:58:32Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Collaborative Training of GANs in Continuous and Discrete Spaces for
Text Generation [21.435286755934534]
本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。
我々のモデルは、品質、多様性、グローバルな一貫性に関して、最先端のGANよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-16T07:51:16Z) - Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation [11.624944730002298]
所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2020-03-25T19:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。