論文の概要: A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media
- arxiv url: http://arxiv.org/abs/2409.20467v1
- Date: Mon, 30 Sep 2024 16:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 05:36:48.614778
- Title: A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media
- Title(参考訳): ベトナムのソーシャルメディアにおける機械語彙正規化のための弱監視データラベリングフレームワーク
- Authors: Dung Ha Nguyen, Anh Thi Hoang Nguyen, Kiet Van Nguyen,
- Abstract要約: 本研究では,ソーシャルメディアテキストにおける語彙正規化の課題に対処する,革新的な自動ラベリングフレームワークを提案する。
本稿では,半教師付き学習と弱監督技術を統合するフレームワークを提案する。
我々のフレームワークは、非標準語彙を標準化形式に変換することによって、生データを自動的にラベル付けする。
- 参考スコア(独自算出の注目度): 1.053698976085779
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study introduces an innovative automatic labeling framework to address the challenges of lexical normalization in social media texts for low-resource languages like Vietnamese. Social media data is rich and diverse, but the evolving and varied language used in these contexts makes manual labeling labor-intensive and expensive. To tackle these issues, we propose a framework that integrates semi-supervised learning with weak supervision techniques. This approach enhances the quality of training dataset and expands its size while minimizing manual labeling efforts. Our framework automatically labels raw data, converting non-standard vocabulary into standardized forms, thereby improving the accuracy and consistency of the training data. Experimental results demonstrate the effectiveness of our weak supervision framework in normalizing Vietnamese text, especially when utilizing Pre-trained Language Models. The proposed framework achieves an impressive F1-score of 82.72% and maintains vocabulary integrity with an accuracy of up to 99.22%. Additionally, it effectively handles undiacritized text under various conditions. This framework significantly enhances natural language normalization quality and improves the accuracy of various NLP tasks, leading to an average accuracy increase of 1-3%.
- Abstract(参考訳): 本研究では,ベトナム語のような低リソース言語を対象としたソーシャルメディアテキストにおける語彙正規化の課題に対処する,革新的な自動ラベリングフレームワークを提案する。
ソーシャルメディアのデータは豊かで多様であるが、これらの文脈で使用される多様で多様な言語は、手作業による労働集約的かつ高価である。
これらの課題に対処するために,半教師付き学習と弱監督技術を統合する枠組みを提案する。
このアプローチはトレーニングデータセットの品質を高め、手動ラベリング作業を最小化しながらサイズを拡大する。
本フレームワークは,非標準語彙を標準化形式に変換することにより,学習データの精度と一貫性を向上させる。
ベトナム語テキストの正規化における弱監督フレームワークの有効性,特に事前学習言語モデルを用いた場合について実験的に検証した。
提案されたフレームワークは、82.72%の印象的なF1スコアを獲得し、99.22%の精度で語彙の整合性を維持している。
さらに、様々な条件下では、非記述テキストを効果的に処理する。
このフレームワークは自然言語の正規化品質を大幅に向上させ、様々なNLPタスクの精度を改善し、平均精度を1-3%向上させる。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Automatic Textual Normalization for Hate Speech Detection [0.8990550886501417]
ソーシャルメディアデータには、幅広い非標準語(NSW)が含まれている。
ベトナム語に対する現在の最先端の手法は、語彙正規化の問題としてこの問題に対処している。
私たちのアプローチは単純で、Seq2Seq(Seq2Seq)モデルのみを使用します。
論文 参考訳(メタデータ) (2023-11-12T14:01:38Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction [4.4641025448898475]
本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
論文 参考訳(メタデータ) (2020-04-30T22:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。