論文の概要: Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning
- arxiv url: http://arxiv.org/abs/2507.04018v1
- Date: Sat, 05 Jul 2025 12:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.977338
- Title: Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning
- Title(参考訳): 音素表現学習による韓国語の語彙外単語の扱い
- Authors: Nayeon Kim, Eojin Jeon, Jun-Hyung Park, SangKeun Lee,
- Abstract要約: 韓国語 OOV 単語を音素表現学習で処理するための新しいフレームワーク KOPL について紹介する。
我々は,KOPLが韓国自然言語処理(NLP)タスクの性能を著しく向上させることを実証的に実証した。
- 参考スコア(独自算出の注目度): 11.555822066922504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce KOPL, a novel framework for handling Korean OOV words with Phoneme representation Learning. Our work is based on the linguistic property of Korean as a phonemic script, the high correlation between phonemes and letters. KOPL incorporates phoneme and word representations for Korean OOV words, facilitating Korean OOV word representations to capture both text and phoneme information of words. We empirically demonstrate that KOPL significantly improves the performance on Korean Natural Language Processing (NLP) tasks, while being readily integrated into existing static and contextual Korean embedding models in a plug-and-play manner. Notably, we show that KOPL outperforms the state-of-the-art model by an average of 1.9%. Our code is available at https://github.com/jej127/KOPL.git.
- Abstract(参考訳): 本研究では,韓国語 OOV 単語を音素表現学習で処理するための新しいフレームワーク KOPL について紹介する。
本研究は,韓国語の音韻書体としての言語的特質,音素と文字の高相関に基づく。
KOPLは韓国のOOV語のための音素表現と単語表現を取り入れており、韓国のOOV語表現は、単語のテキスト情報と音素情報の両方をキャプチャする。
我々は,KOPLが既存の静的および文脈的韓国語埋め込みモデルにプラグイン・アンド・プレイ方式で容易に統合されながら,韓国自然言語処理(NLP)タスクの性能を著しく向上させることを実証的に実証した。
特に,KOPLは最先端モデルよりも平均1.9%優れていた。
私たちのコードはhttps://github.com/jej127/KOPL.git.comから入手可能です。
関連論文リスト
- Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - GECKO: Generative Language Model for English, Code and Korean [0.02046223849354785]
韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。
GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-05-24T15:30:41Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。