論文の概要: Punctuation restoration Model and Spacing Model for Korean Ancient
Document
- arxiv url: http://arxiv.org/abs/2312.11881v1
- Date: Tue, 19 Dec 2023 06:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:47:35.978296
- Title: Punctuation restoration Model and Spacing Model for Korean Ancient
Document
- Title(参考訳): 朝鮮古文書の句読回復モデルと間隔モデル
- Authors: Taehong Jang, Joonmo Ahn, Sojung Lucia Kim
- Abstract要約: 朝鮮の古文書には空白や句読がなく、漢文で書かれている。
中国には句読点と間隔を予測するモデルがあるが、韓国のテキストに直接適用することは、データの違いによって問題となる。
韓国の歴史文献の句読点と間隔を予測し,その性能を評価する最初のモデルを開発した。
- 参考スコア(独自算出の注目度): 0.5524804393257919
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Korean ancient documents, there is no spacing or punctuation, and they are
written in classical Chinese characters. This makes it challenging for modern
individuals and translation models to accurately interpret and translate them.
While China has models predicting punctuation and spacing, applying them
directly to Korean texts is problematic due to data differences. Therefore, we
developed the first models which predict punctuation and spacing for Korean
historical texts and evaluated their performance. Our punctuation restoration
model achieved an F1 score of 0.84, and Spacing model achieved a score of 0.96.
It has the advantage of enabling inference on low-performance GPUs with less
VRAM while maintaining quite high accuracy.
- Abstract(参考訳): 朝鮮古文書には間隔や句読点はなく、古典文で書かれている。
これにより、現代の個人や翻訳モデルが正確な解釈と翻訳を困難にしている。
中国には句読点と間隔を予測するモデルがあるが、データの違いにより韓国のテキストに直接適用することは問題となる。
そこで,韓国の歴史文献の句読や間隔を予測する最初のモデルを開発し,その性能評価を行った。
我々の句読点復元モデルはF1スコアが0.84、スペーシングモデルが0.96を記録した。
非常に高い精度を維持しながら、より少ないVRAMで低パフォーマンスGPUでの推論を可能にするという利点がある。
関連論文リスト
- Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。
Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文 参考訳(メタデータ) (2024-11-15T10:01:52Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Look Ma, Only 400 Samples! Revisiting the Effectiveness of Automatic
N-Gram Rule Generation for Spelling Normalization in Filipino [0.0]
フィリピンのNLPアプリケーションの開発には、オンラインテキストをモデルで処理する能力が不可欠である。
自動ルール抽出によるN-Gram + Damerau Levenshtein距離モデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T04:41:26Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - An Alignment-Agnostic Model for Chinese Text Error Correction [17.429266115653007]
本稿では,誤字・欠字・冗長字の種類で中国語の誤りを訂正する方法を検討する。
ほとんどの既存モデルは誤り文字の誤りを訂正できるが、欠落文字や冗長文字を扱うことはできない。
本稿では,テキストアライメントと非アライメントの両方を処理可能な,アライメント非依存な新たな検出訂正フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T01:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。