論文の概要: Historical German Text Normalization Using Type- and Token-Based Language Modeling
- arxiv url: http://arxiv.org/abs/2409.02841v1
- Date: Wed, 4 Sep 2024 16:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:11:35.168784
- Title: Historical German Text Normalization Using Type- and Token-Based Language Modeling
- Title(参考訳): 型とトークンに基づく言語モデリングを用いた歴史的ドイツ語テキスト正規化
- Authors: Anton Ehrmanntraut,
- Abstract要約: 本報告では, パラレルコーパスで訓練した1700-1900年頃のドイツ語文文の正規化システムを提案する。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Historic variations of spelling poses a challenge for full-text search or natural language processing on historical digitized texts. To minimize the gap between the historic orthography and contemporary spelling, usually an automatic orthographic normalization of the historical source material is pursued. This report proposes a normalization system for German literary texts from c. 1700-1900, trained on a parallel corpus. The proposed system makes use of a machine learning approach using Transformer language models, combining an encoder-decoder model to normalize individual word types, and a pre-trained causal language model to adjust these normalizations within their context. An extensive evaluation shows that the proposed system provides state-of-the-art accuracy, comparable with a much larger fully end-to-end sentence-based normalization system, fine-tuning a pre-trained Transformer large language model. However, the normalization of historical text remains a challenge due to difficulties for models to generalize, and the lack of extensive high-quality parallel data.
- Abstract(参考訳): 綴りの歴史的バリエーションは、歴史デジタル化されたテキストのフルテキスト検索や自然言語処理の課題となっている。
歴史的正書法と現代綴りとのギャップを最小化するため、通常、史料の自動正書法正規化が追求される。
本報告では, ドイツ語文の正規化システムを提案する。
1700-1900 - パラレルコーパスで訓練。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
しかし、モデルが一般化するのは難しいことや、高度な並列データがないことなどから、歴史的テキストの正規化は依然として課題である。
関連論文リスト
- Neural machine translation for automated feedback on children's
early-stage writing [3.0695550123017514]
本稿では,機械学習を用いた早期執筆のためのフィードバックの評価と構築の課題に対処する。
そこで本研究では,学生による「伝統的な」文章の翻訳にシーケンシャル・ツー・シーケンス・モデルを用いることを提案する。
論文 参考訳(メタデータ) (2023-11-15T21:32:44Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - The Whole Truth and Nothing But the Truth: Faithful and Controllable
Dialogue Response Generation with Dataflow Transduction and Constrained
Decoding [65.34601470417967]
本稿では,ニューラルネットワークモデリングとルールベース生成の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。
本実験により, 本システムは, 流布性, 妥当性, 真理性の評価において, ルールベースおよび学習的アプローチの両方に優れることがわかった。
論文 参考訳(メタデータ) (2022-09-16T09:00:49Z) - Text normalization for low-resource languages: the case of Ligurian [8.27203430509479]
逆変換と適切なトークン化を用いることで、非常に低いエラー率を達成するために、コンパクトなトランスフォーマーベースモデルを訓練できることが示される。
正規化バージョンと組み合わせた4,394のLigurian文と、Ligurian用の最初のオープンソースモノリンガルコーパスを収集する。
論文 参考訳(メタデータ) (2022-06-16T00:37:55Z) - Capitalization Normalization for Language Modeling with an Accurate and
Efficient Hierarchical RNN Model [12.53710938104476]
本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。
言語モデリングのためのFederated Learningフレームワークでは、 truecaserを使ってユーザ生成テキストを正規化しています。
論文 参考訳(メタデータ) (2022-02-16T16:21:53Z) - Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers [3.3302293148249125]
現在の自然言語処理のベンチマークタスクには、非公式な日々のデジタルコミュニケーションで使用されるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
機械翻訳問題として,mBARTに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2021-10-06T15:53:20Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Normalizing Text using Language Modelling based on Phonetics and String
Similarity [0.0]
テキスト正規化を行うための新しい頑健なモデルを提案する。
テキスト中の正規化されていない単語を根本形に置き換えようとする2つのユニークなマスキング戦略を提案する。
本手法の精度は86.7%,83.2%であり,本手法がテキスト正規化に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-25T00:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。