Fugu-MT 論文翻訳(概要): Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning

論文の概要: Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning

arxiv url: http://arxiv.org/abs/2507.04018v1
Date: Sat, 05 Jul 2025 12:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.977338
Title: Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning
Title（参考訳）: 音素表現学習による韓国語の語彙外単語の扱い
Authors: Nayeon Kim, Eojin Jeon, Jun-Hyung Park, SangKeun Lee,
Abstract要約: 韓国語 OOV 単語を音素表現学習で処理するための新しいフレームワーク KOPL について紹介する。我々は,KOPLが韓国自然言語処理(NLP)タスクの性能を著しく向上させることを実証的に実証した。
参考スコア（独自算出の注目度）: 11.555822066922504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we introduce KOPL, a novel framework for handling Korean OOV words with Phoneme representation Learning. Our work is based on the linguistic property of Korean as a phonemic script, the high correlation between phonemes and letters. KOPL incorporates phoneme and word representations for Korean OOV words, facilitating Korean OOV word representations to capture both text and phoneme information of words. We empirically demonstrate that KOPL significantly improves the performance on Korean Natural Language Processing (NLP) tasks, while being readily integrated into existing static and contextual Korean embedding models in a plug-and-play manner. Notably, we show that KOPL outperforms the state-of-the-art model by an average of 1.9%. Our code is available at https://github.com/jej127/KOPL.git.
Abstract（参考訳）: 本研究では,韓国語 OOV 単語を音素表現学習で処理するための新しいフレームワーク KOPL について紹介する。本研究は,韓国語の音韻書体としての言語的特質,音素と文字の高相関に基づく。 KOPLは韓国のOOV語のための音素表現と単語表現を取り入れており、韓国のOOV語表現は、単語のテキスト情報と音素情報の両方をキャプチャする。我々は,KOPLが既存の静的および文脈的韓国語埋め込みモデルにプラグイン・アンド・プレイ方式で容易に統合されながら,韓国自然言語処理(NLP)タスクの性能を著しく向上させることを実証的に実証した。特に,KOPLは最先端モデルよりも平均1.9%優れていた。私たちのコードはhttps://github.com/jej127/KOPL.git.comから入手可能です。

関連論文リスト

KatFishNet: Detecting LLM-Generated Korean Text through Linguistic Feature Analysis [3.224880576815583]
LLM生成韓国語テキストを検出するための最初のベンチマークデータセットであるKatFishを紹介する。音声の間隔パターン,部分音声の多様性,コンマ使用法を調べた結果,人文文とLLM生成韓国語文との言語的差異が明らかになった。 KatFishNetはAUROCよりも平均19.78%高い。
論文参考訳（メタデータ） (2025-02-25T00:59:27Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文参考訳（メタデータ） (2024-07-12T11:33:41Z)
GECKO: Generative Language Model for English, Code and Korean [0.02046223849354785]
韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。 GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。
論文参考訳（メタデータ） (2024-05-24T15:30:41Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文参考訳（メタデータ） (2024-02-22T17:12:39Z)
Building Korean Sign Language Augmentation (KoSLA) Corpus with Data Augmentation Technique [0.0]
我々は手話翻訳のためのコーパスの効率的なフレームワークを提案する。手話の言語的特徴を考慮することで,提案するフレームワークは,マルチモーダル手話拡張コーパスを構築するための最初の,ユニークな試みである。
論文参考訳（メタデータ） (2022-07-12T02:12:36Z)
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-27T11:24:40Z)
Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。 3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2022-06-05T10:50:34Z)
KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文参考訳（メタデータ） (2021-05-20T11:40:30Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。 11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文参考訳（メタデータ） (2020-02-26T21:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。