論文の概要: SCRIPT: A Subcharacter Compositional Representation Injection Module for Korean Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2604.12377v1
- Date: Tue, 14 Apr 2026 07:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.307105
- Title: SCRIPT: A Subcharacter Compositional Representation Injection Module for Korean Pre-Trained Language Models
- Title(参考訳): SCRIPT:韓国語事前訓練言語モデルのためのサブキャラクタ構成表現インジェクションモジュール
- Authors: SungHo Kim, Juhyeong Park, Eda Atalay, SangKeun Lee,
- Abstract要約: SCRIPTは、韓国のPLMにサブ文字構成知識を注入するモデルに依存しないモジュールである。
SCRIPTは、韓国のさまざまな自然言語理解(NLU)と生成(NLG)タスクにまたがる全てのベースラインを強化する。
- 参考スコア(独自算出の注目度): 11.111389249714533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Korean is a morphologically rich language with a featural writing system in which each character is systematically composed of subcharacter units known as Jamo. These subcharacters not only determine the visual structure of Korean but also encode frequent and linguistically meaningful morphophonological processes. However, most current Korean language models (LMs) are based on subword tokenization schemes, which are not explicitly designed to capture the internal compositional structure of characters. To address this limitation, we propose SCRIPT, a model-agnostic module that injects subcharacter compositional knowledge into Korean PLMs. SCRIPT allows to enhance subword embeddings with structural granularity, without requiring architectural changes or additional pre-training. As a result, SCRIPT enhances all baselines across various Korean natural language understanding (NLU) and generation (NLG) tasks. Moreover, beyond performance gains, detailed linguistic analyses show that SCRIPT reshapes the embedding space in a way that better captures grammatical regularities and semantically cohesive variations. Our code is available at https://github.com/SungHo3268/SCRIPT.
- Abstract(参考訳): 韓国語は形態的に豊かな言語であり、各文字はジャモとして知られるサブ文字単位から体系的に構成されている。
これらのサブキャラクタは韓国語の視覚構造を決定するだけでなく、頻繁で言語学的に意味のある形態素過程を符号化する。
しかし、現在の韓国語モデル(LM)のほとんどは、文字の内部構成構造を明示的に捉えるように設計されていないサブワードトークン化スキームに基づいている。
この制限に対処するため,韓国のPLMにサブ文字構成知識を注入するモデル非依存モジュールSCRIPTを提案する。
SCRIPTは、アーキテクチャの変更や追加の事前トレーニングを必要とせずに、構造的な粒度でサブワードの埋め込みを強化することができる。
その結果、SCRIPTは韓国の様々な自然言語理解(NLU)と生成(NLG)タスクにまたがる全てのベースラインを強化する。
さらに、性能向上を超えて、詳細な言語学的分析により、SCRIPTは文法的規則性や意味論的結合性の変化をよりよく捉える方法で、埋め込み空間を再認識することを示している。
私たちのコードはhttps://github.com/SungHo3268/SCRIPTで利用可能です。
関連論文リスト
- Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification [2.4071330817126477]
韓国の短文分類のための階層的ヘテロジニアスグラフモデルであるLIGRAMを提案する。
提案モデルでは, 形態素, パート・オブ・スポーチ, 名前の一致度でサブグラフを構築し, 階層的に統合し, 短いテキストで限られた文脈情報を補う。
韓国の4つの短文データセット上でLIGRAMを評価し、既存のベースラインモデルより一貫して優れています。
論文 参考訳(メタデータ) (2026-03-04T02:17:13Z) - Enhanced Generative Structure Prior for Chinese Text Image Super-resolution [101.66745917380837]
低解像度(LR)漢字の正確なストロークを復元するためのテキスト画像フレームワークを提案する。
われわれのフレームワークはこの構造をStyleGANモデルに組み込む。
私たちのコードと事前トレーニングされたモデルは、https://github.com/csi2016/MARCONetPlus.comで公開されます。
論文 参考訳(メタデータ) (2025-08-11T01:34:45Z) - Splintering Nonconcatenative Languages for Better Tokenization [4.496923806879088]
本稿では,テキストを線形形式に再構成する前処理ステップであるSPLINTERを提案する。
我々は、ヘブライ語、アラビア語、マレー語におけるトークン語彙を評価する本質的な尺度を用いて、そのメリットを実証する。
論文 参考訳(メタデータ) (2025-03-18T17:11:09Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Word segmentation granularity in Korean [1.0619039878979954]
韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
論文 参考訳(メタデータ) (2023-09-07T13:42:05Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。