論文の概要: Learning How to Translate North Korean through South Korean
- arxiv url: http://arxiv.org/abs/2201.11258v1
- Date: Thu, 27 Jan 2022 01:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:42:16.610028
- Title: Learning How to Translate North Korean through South Korean
- Title(参考訳): 北朝鮮を韓国に翻訳する方法を学ぶ
- Authors: Hwichan Kim, Sangwhan Moon, Naoaki Okazaki, and Mamoru Komachi
- Abstract要約: 韓国語と北朝鮮語はどちらも韓国語である。
既存の韓国語のNLPシステムは北朝鮮の入力を処理できない。
我々は、同等のコーパスを使用して、北朝鮮のNMTモデルのデータを作成する。
人間のアノテーションを使わずに、北朝鮮のバイリンガルデータによって訓練されたモデルが、北朝鮮の翻訳精度を大幅に向上させることができることを検証した。
- 参考スコア(独自算出の注目度): 24.38451366384134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: South and North Korea both use the Korean language. However, Korean NLP
research has focused on South Korean only, and existing NLP systems of the
Korean language, such as neural machine translation (NMT) models, cannot
properly handle North Korean inputs. Training a model using North Korean data
is the most straightforward approach to solving this problem, but there is
insufficient data to train NMT models. In this study, we create data for North
Korean NMT models using a comparable corpus. First, we manually create
evaluation data for automatic alignment and machine translation. Then, we
investigate automatic alignment methods suitable for North Korean. Finally, we
verify that a model trained by North Korean bilingual data without human
annotation can significantly boost North Korean translation accuracy compared
to existing South Korean models in zero-shot settings.
- Abstract(参考訳): 韓国と北朝鮮はどちらも韓国語を使用している。
しかし、韓国のNLP研究は韓国のみに焦点を当てており、ニューラルマシン翻訳(NMT)モデルのような既存の韓国語のNLPシステムは北朝鮮の入力を適切に扱えない。
北朝鮮のデータを用いたモデルのトレーニングは、この問題を解決するための最も簡単なアプローチであるが、NTTモデルのトレーニングには不十分なデータがある。
本研究では,北朝鮮のNMTモデルに対して,同等のコーパスを用いてデータを作成する。
まず,自動アライメントと機械翻訳のための評価データを作成する。
次に,北朝鮮に適した自動アライメント手法について検討する。
最後に,人間のアノテーションを持たない北朝鮮のバイリンガルデータによって訓練されたモデルが,ゼロショット設定の既存の韓国モデルと比較して,北朝鮮の翻訳精度を著しく向上させることができることを検証した。
関連論文リスト
- RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation [26.48270086631483]
韓国の文法的誤りを幅広くカバーするデータセットを提供する。
次に韓国語で14のエラータイプを定義し、並列コーパスから自動アノテート可能なKAGASを提供する。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、現在使われている統計的韓国のGECシステム(Hanspell)よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-25T23:41:52Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - Design of a novel Korean learning application for efficient
pronunciation correction [2.008880264104061]
提案システムでは,音声認識,音声テキスト,音声波形の3つが重要なシステムである。
すると、ソフトウェアはユーザのフレーズと回答を表示し、赤で強調された要素を誤って表示する。
論文 参考訳(メタデータ) (2022-05-04T11:19:29Z) - Korean Tokenization for Beam Search Rescoring in Speech Recognition [13.718396242036818]
韓国のASRに使用されるニューラルネットワークを用いたLMのための韓国のトークン化手法を提案する。
韓国語音節に後続子音がない場合に特別なトークンSkipTCを挿入する新しいトークン化手法を提案する。
実験の結果,SkipTCのない同じLMモデルと比較して,提案手法は単語誤り率を低くすることがわかった。
論文 参考訳(メタデータ) (2022-02-22T11:25:01Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language
Understanding [4.576330530169462]
自然言語推論(NLI)と意味テキスト類似性(STS)は、自然言語理解(NLU)における重要なタスクである。
韓国語ではNLIやSTSのデータセットは公開されていない。
我々はそれぞれKorNLIとKorSTSと呼ばれる韓国のNLIとSTSのための新しいデータセットを構築し、リリースする。
論文 参考訳(メタデータ) (2020-04-07T11:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。