論文の概要: ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media
Text
- arxiv url: http://arxiv.org/abs/2401.16403v1
- Date: Mon, 29 Jan 2024 18:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:27:35.150056
- Title: ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media
Text
- Title(参考訳): ViLexNorm:ベトナムのソーシャルメディアテキストのための語彙正規化コーパス
- Authors: Thanh-Nhi Nguyen, Thanh-Phong Le, Kiet Van Nguyen
- Abstract要約: ベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語語彙正規化(ViLexNorm)を紹介する。
このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公のコメントから引用された、人間の注釈によって丁寧に注釈付けされた1万件以上の文で構成されている。
- 参考スコア(独自算出の注目度): 1.1842520528140819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lexical normalization, a fundamental task in Natural Language Processing
(NLP), involves the transformation of words into their canonical forms. This
process has been proven to benefit various downstream NLP tasks greatly. In
this work, we introduce Vietnamese Lexical Normalization (ViLexNorm), the
first-ever corpus developed for the Vietnamese lexical normalization task. The
corpus comprises over 10,000 pairs of sentences meticulously annotated by human
annotators, sourced from public comments on Vietnam's most popular social media
platforms. Various methods were used to evaluate our corpus, and the
best-performing system achieved a result of 57.74% using the Error Reduction
Rate (ERR) metric (van der Goot, 2019a) with the Leave-As-Is (LAI) baseline.
For extrinsic evaluation, employing the model trained on ViLexNorm demonstrates
the positive impact of the Vietnamese lexical normalization task on other NLP
tasks. Our corpus is publicly available exclusively for research purposes.
- Abstract(参考訳): 語彙正規化(英語: Lexical normalization)は、自然言語処理(NLP)の基本課題であり、単語を標準形式に変換することである。
このプロセスは、下流の様々なNLPタスクに大きな恩恵をもたらすことが証明されている。
本研究ではベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語彙正規化(ViLexNorm)を紹介する。
このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公式コメントから引用された、人間の注釈によって慎重に注釈付けされた1万件以上の文からなる。
コーパスの評価には多種多様な手法が用いられ, 最適性能のシステムは57.74%の誤差低減率 (ERR) 測定値 (van der Goot, 2019a) とLeft-As-Is (LAI) 基準値を用いて達成された。
ViLexNormでトレーニングされたモデルを用いることで、ベトナムの語彙正規化タスクが他のNLPタスクに与える影響を実証することができる。
私たちのコーパスは研究目的でのみ公開されている。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text
Normalization [9.140423191799423]
HinglishNormは、Hindi- English code-mixed sentencesの人間の注釈付きコーパスで、テキスト正規化タスクを行う。
We obtained a Word Error Rate (WER) of 15.55, biLingual Evaluation Understudy (BLEU) score of 71.2, and Metric for Evaluation of Translation with Explicit ordering (METEOR) score of 0.50。
論文 参考訳(メタデータ) (2020-10-18T12:21:37Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - New Vietnamese Corpus for Machine Reading Comprehension of Health News
Articles [2.5199066832791535]
本稿では、ベトナム語のための新しいコーパスとしてViNewsQAを紹介し、医療読解モデルの評価を行う。
コーパスは、人為的な問合せ対22,057からなる。
実験の結果,ALBERTは65.26%,F1スコア84.89%の精度で一致した。
論文 参考訳(メタデータ) (2020-06-19T13:49:26Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。