論文の概要: KOMBO: Korean Character Representations Based on the Combination Rules of Subcharacters
- arxiv url: http://arxiv.org/abs/2604.23948v1
- Date: Mon, 27 Apr 2026 01:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.692633
- Title: KOMBO: Korean Character Representations Based on the Combination Rules of Subcharacters
- Title(参考訳): Kombo:サブキャラクタの組合せ規則に基づく韓国文字表現
- Authors: SungHo Kim, Juhyeong Park, Yeachan Kim, SangKeun Lee,
- Abstract要約: textitHangeulは、textitHunminjeongeum.footnotetextitHunminjeongeumに記録されている発明原則に従って、独自の文字表現を持つ。
韓国語事前訓練言語モデル(PLM)のための新しいフレームワークであるKOMBOを紹介した。
提案手法であるKOMBOは多種多様なNLPタスクにまたがる顕著な実験能力を示す。
- 参考スコア(独自算出の注目度): 20.335880983366508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Korean writing system, \textit{Hangeul}, has a unique character representation rigidly following the invention principles recorded in \textit{Hunminjeongeum}.\footnote{\textit{Hunminjeongeum} is a book published in 1446 that describes the principles of invention and usage of \textit{Hangeul}, devised by King Sejong \cite{Hunminjeongeum_Guide}.} However, existing pre-trained language models (PLMs) for Korean have overlooked these principles. In this paper, we introduce a novel framework for Korean PLMs called KOMBO, which firstly brings the invention principles of \textit{Hangeul} to represent character. Our proposed method, KOMBO, exhibits notable experimental proficiency across diverse NLP tasks. In particular, our method outperforms the state-of-the-art Korean PLM by an average of 2.11\% in five Korean natural language understanding tasks. Furthermore, extensive experiments demonstrate that our proposed method is suitable for comprehending the linguistic features of the Korean language. Consequently, we shed light on the superiority of using subcharacters over the typical subword-based approach for Korean PLMs. Our code is available at: [https://github.com/SungHo3268/KOMBO](https://github.com/SungHo3268/KOMBO).
- Abstract(参考訳): 韓国の書記体系である『textit{Hangeul}』は、『textit{Hunminjeongeum}』に記載された発明原則に従って厳格に独自の文字表現をしている。
\footnote{\textit{Hunminjeongeum} は1446年に出版された書籍で、Sejong \cite{Hunminjeongeum_Guide} によって考案された。
しかし、韓国の既存の事前訓練言語モデル(PLM)は、これらの原則を見落としている。
本稿では,KoMBOと呼ばれる韓国のPLMのための新しいフレームワークを紹介し,まず,文字を表現するためにtextit{Hangeul}の発明原則を取り入れた。
提案手法であるKOMBOは多種多様なNLPタスクにまたがる顕著な実験能力を示す。
特に,本手法は,韓国の5つの自然言語理解タスクにおいて,最先端の韓国語 PLM を平均 2.11 % 上回っている。
さらに,提案手法は韓国語の言語的特徴を理解するのに適していることを示す。
その結果,韓国のPLMに対する典型的なサブワードベースアプローチよりも,サブキャラクタの優位性に光を当てた。
私たちのコードは以下の通りです。 [https://github.com/SungHo3268/KOMBO] (https://github.com/SungHo3268/KOMBO]
関連論文リスト
- SCRIPT: A Subcharacter Compositional Representation Injection Module for Korean Pre-Trained Language Models [11.111389249714533]
SCRIPTは、韓国のPLMにサブ文字構成知識を注入するモデルに依存しないモジュールである。
SCRIPTは、韓国のさまざまな自然言語理解(NLU)と生成(NLG)タスクにまたがる全てのベースラインを強化する。
論文 参考訳(メタデータ) (2026-04-14T07:09:44Z) - Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts [52.754009498236684]
我々は1,300年と6つの言語からなるデータセットであるOpen Korean Historical Corpusを紹介した。
このコーパスには7世紀から2025年までの19の資料から1800万の文書と50億のトークンが含まれている。
この研究は、韓国語の歴史を捉えることで、量的二時間分析の基盤となる資源を提供する。
論文 参考訳(メタデータ) (2025-10-28T15:43:26Z) - Interpretable Mnemonic Generation for Kanji Learning via Expectation-Maximization [48.05034213634496]
本稿では,共通ルールの集合によって駆動されるメニーモニックな構築過程を明示的にモデル化する生成フレームワークを提案する。
提案手法は潜在構造と構成規則を学習し,解釈可能な,系統的な調波生成を可能にする。
論文 参考訳(メタデータ) (2025-07-07T15:49:23Z) - Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning [11.555822066922504]
韓国語 OOV 単語を音素表現学習で処理するための新しいフレームワーク KOPL について紹介する。
我々は,KOPLが韓国自然言語処理(NLP)タスクの性能を著しく向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2025-07-05T12:16:55Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels [0.0]
KoCoNovel(ココノヴェル)は、韓国の文芸文から派生した新しい文字コアデータセットである。
KoCoNovelの特徴の1つは、すべての文字言及の24%が単一の共通名詞であることである。
論文 参考訳(メタデータ) (2024-04-01T14:36:35Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。