論文の概要: MultiLexNorm++: A Unified Benchmark and a Generative Model for Lexical Normalization for Asian Languages
- arxiv url: http://arxiv.org/abs/2601.16623v1
- Date: Fri, 23 Jan 2026 10:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.633604
- Title: MultiLexNorm++: A Unified Benchmark and a Generative Model for Lexical Normalization for Asian Languages
- Title(参考訳): MultiLexNorm++:アジア言語の語彙正規化のための統一ベンチマークと生成モデル
- Authors: Weerayut Buaphet, Thanh-Nhi Nguyen, Risa Kondo, Tomoyuki Kajiwara, Yumin Kim, Jimin Lee, Hwanhee Lee, Holy Lovenia, Peerat Limkonchotiwat, Sarana Nutanong, Rob Van der Goot,
- Abstract要約: ソーシャルメディアのデータは10年以上にわたって自然言語処理(NLP)の実践者にとって関心を集めてきた。
言語の使用はより非公式であり、自発的であり、多くの異なる社会表現に固執するため、NLPモデルの性能は劣化することが多い。
この問題の解決策の1つは、データを処理する前に標準的な変種に変換することである。
- 参考スコア(独自算出の注目度): 35.41743483735058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media data has been of interest to Natural Language Processing (NLP) practitioners for over a decade, because of its richness in information, but also challenges for automatic processing. Since language use is more informal, spontaneous, and adheres to many different sociolects, the performance of NLP models often deteriorates. One solution to this problem is to transform data to a standard variant before processing it, which is also called lexical normalization. There has been a wide variety of benchmarks and models proposed for this task. The MultiLexNorm benchmark proposed to unify these efforts, but it consists almost solely of languages from the Indo-European language family in the Latin script. Hence, we propose an extension to MultiLexNorm, which covers 5 Asian languages from different language families in 4 different scripts. We show that the previous state-of-the-art model performs worse on the new languages and propose a new architecture based on Large Language Models (LLMs), which shows more robust performance. Finally, we analyze remaining errors, revealing future directions for this task.
- Abstract(参考訳): ソーシャルメディアのデータは10年以上にわたって自然言語処理(NLP)の実践者にとって関心を集めてきた。
言語の使用はより非公式であり、自発的であり、多くの異なる社会表現に固執するため、NLPモデルの性能は劣化することが多い。
この問題の解決策の1つは、データを処理する前に標準的な変種に変換することである。
このタスクにはさまざまなベンチマークやモデルが提案されている。
MultiLexNormベンチマークはこれらの取り組みを統合することを提案したが、ラテン文字のインド・ヨーロッパ語族の言語のみで構成されている。
そこで本研究では,異なる言語族に属する5つのアジア言語を4つの異なるスクリプトでカバーするMultiLexNormの拡張を提案する。
従来の最先端モデルが新しい言語に悪影響を及ぼすことを示し、より堅牢な性能を示すLarge Language Models (LLMs) に基づく新しいアーキテクチャを提案する。
最後に、残りのエラーを分析し、このタスクの今後の方向性を明らかにする。
関連論文リスト
- EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation [24.060772057458685]
本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMを紹介する。
我々は,5つの下流自然言語処理(NLP)タスクにおいて,これらのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-03-20T16:43:42Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。