論文の概要: HanjaBridge: Resolving Semantic Ambiguity in Korean LLMs via Hanja-Augmented Pre-Training
- arxiv url: http://arxiv.org/abs/2507.10920v1
- Date: Tue, 15 Jul 2025 02:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.956295
- Title: HanjaBridge: Resolving Semantic Ambiguity in Korean LLMs via Hanja-Augmented Pre-Training
- Title(参考訳): ハンジャブリッジ:ハンジャ強化プレトレーニングによる韓国のLLMのセマンティックな曖昧さの解消
- Authors: Seungho Choi,
- Abstract要約: 本稿では,連続的な事前学習フレームワークに組み込まれた新しい意味注入手法であるHanjaBridgeを提案する。
実験の結果,HanjaBridgeは韓国語の理解を著しく改善し,KoBALTベンチマークでは相対的に21%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often show poor performance in low-resource languages like Korean, partly due to unique linguistic challenges such as homophonous Sino-Korean words that are indistinguishable in Hangul script. To address this semantic ambiguity, we propose HanjaBridge, a novel meaning-injection technique integrated into a continual pre-training (CPT) framework. Instead of deterministically mapping a word to a single Hanja (Chinese character), HanjaBridge presents the model with all possible Hanja candidates for a given homograph, encouraging the model to learn contextual disambiguation. This process is paired with token-level knowledge distillation to prevent catastrophic forgetting. Experimental results show that HanjaBridge significantly improves Korean language understanding, achieving a 21\% relative improvement on the KoBALT benchmark. Notably, by reinforcing semantic alignment between Korean and Chinese through shared Hanja, we observe a strong positive cross-lingual transfer. Furthermore, these gains persist even when Hanja augmentation is omitted at inference time, ensuring practical efficiency with no additional run-time cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は、韓国語のような低リソース言語では、ハングル文字では区別できない、同音の中・韓国語の単語のような独特の言語的課題のために、性能が劣ることが多い。
このような意味のあいまいさに対処するために,連続的事前学習(CPT)フレームワークに統合された新しい意味注入手法であるHanjaBridgeを提案する。
単語を1つの半者(漢字)に決定論的にマッピングする代わりに、ハンジャブリッジは、与えられたホモグラフに対してすべてのハンジャ候補を伴ってモデルを提示し、文脈的曖昧さを学習するよう促す。
このプロセスは、破滅的な忘れ物を防ぐためにトークンレベルの知識蒸留と組み合わせられる。
実験の結果,HanjaBridgeは韓国語の理解を著しく改善し,KoBALTベンチマークの21倍の相対的な改善を実現していることがわかった。
特に,韓国語と中国語のセマンティックアライメントを共有漢語で強化することにより,強い肯定的な言語間移動が観察される。
さらに、ハンジャ増設を推論時に省略してもこの利得は持続し、追加のランタイムコストを伴わずに実用的な効率を確保できる。
関連論文リスト
- HERITAGE: An End-to-End Web Platform for Processing Korean Historical Documents in Hanja [48.07219104902607]
HERITAGEは、歴史的文書理解における3つの重要なタスクのモデル予測を提供するWebベースのプラットフォームである。
HERITAGEはインタラクティブな用語集も提供しており、現代の朝鮮語ではハンジャ文字の文字レベルの読み方を提供している。
論文 参考訳(メタデータ) (2025-01-21T07:49:51Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - KoreALBERT: Pretraining a Lite BERT Model for Korean Language
Understanding [6.414554168135807]
KoreALBERTは韓国語理解のための単言語ALBERTモデルである。
トレーニング済みのPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。
論文 参考訳(メタデータ) (2021-01-27T12:48:53Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。