論文の概要: Two Spelling Normalization Approaches Based on Large Language Models
- arxiv url: http://arxiv.org/abs/2506.23288v1
- Date: Sun, 29 Jun 2025 15:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.811173
- Title: Two Spelling Normalization Approaches Based on Large Language Models
- Title(参考訳): 大規模言語モデルに基づく2つのスペル化正規化手法
- Authors: Miguel Domingo, Francisco Casacuberta,
- Abstract要約: 文書の正書法を 現代標準と整合させる
本稿では,大規模言語モデルに基づく2つの新しいアプローチを提案する。そのうちの1つは教師なしの訓練であり,もう1つは機械翻訳のための訓練である。
我々の評価は多様な言語や歴史的期間を含む複数のデータセットにまたがっており、両者が奨励的な結果を得た一方で、統計機械翻訳がこのタスクに最も適した技術であると思われるという結論に至った。
- 参考スコア(独自算出の注目度): 3.207455883863625
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The absence of standardized spelling conventions and the organic evolution of human language present an inherent linguistic challenge within historical documents, a longstanding concern for scholars in the humanities. Addressing this issue, spelling normalization endeavors to align a document's orthography with contemporary standards. In this study, we propose two new approaches based on large language models: one of which has been trained without a supervised training, and a second one which has been trained for machine translation. Our evaluation spans multiple datasets encompassing diverse languages and historical periods, leading us to the conclusion that while both of them yielded encouraging results, statistical machine translation still seems to be the most suitable technology for this task.
- Abstract(参考訳): 標準的な綴り規則の欠如と人間の言語の有機的進化は、人文科学の学者にとって長年の関心事である歴史文書に固有の言語的課題を呈している。
この問題に対処するため、文書の正書法を現代標準に合わせるために正規化の努力を綴った。
本研究では,大規模言語モデルに基づく2つの新しいアプローチを提案する。そのうちの1つは教師なしの訓練であり,もう1つは機械翻訳のための訓練である。
我々の評価は多様な言語や歴史的期間を含む複数のデータセットにまたがっており、両者が奨励的な結果を得た一方で、統計機械翻訳がこのタスクに最も適した技術であると思われるという結論に至った。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Semi-Supervised Learning for Bilingual Lexicon Induction [1.8130068086063336]
本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。
標準ベンチマークの実験では、英語から20言語以上の言語に辞書を推論し、我々のアプローチが既存の技術ベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-10T19:27:22Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Grammatical Error Correction: A Survey of the State of the Art [15.174807142080187]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、テキスト中のエラーを自動的に検出し、修正するタスクである。
この分野は過去10年間で大きな進歩を遂げており、一部は5つの共有タスクによって動機付けられている。
論文 参考訳(メタデータ) (2022-11-09T19:34:38Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - A Call for More Rigor in Unsupervised Cross-lingual Learning [76.6545568416577]
このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
論文 参考訳(メタデータ) (2020-04-30T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。