論文の概要: Lexical Normalization for Code-switched Data and its Effect on
POS-tagging
- arxiv url: http://arxiv.org/abs/2006.01175v2
- Date: Sun, 31 Jan 2021 20:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:06:40.112317
- Title: Lexical Normalization for Code-switched Data and its Effect on
POS-tagging
- Title(参考訳): コード切り換えデータの語彙正規化とposタグへの影響
- Authors: Rob van der Goot, \"Ozlem \c{C}etino\u{g}lu
- Abstract要約: コード切替データを扱うために特別に設計された3つの正規化モデルを提案する。
本稿では,新しい正規化レイヤとそれに対応する言語IDとPOSタグをデータセットに導入する。
その結果,CS-tailored normalization modelはId-En状態とTr-Deモノリンガルモデルより優れていた。
- 参考スコア(独自算出の注目度): 8.875272663730868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical normalization, the translation of non-canonical data to standard
language, has shown to improve the performance of manynatural language
processing tasks on social media. Yet, using multiple languages in one
utterance, also called code-switching (CS), is frequently overlooked by these
normalization systems, despite its common use in social media. In this paper,
we propose three normalization models specifically designed to handle
code-switched data which we evaluate for two language pairs: Indonesian-English
(Id-En) and Turkish-German (Tr-De). For the latter, we introduce novel
normalization layers and their corresponding language ID and POS tags for the
dataset, and evaluate the downstream effect of normalization on POS tagging.
Results show that our CS-tailored normalization models outperform Id-En state
of the art and Tr-De monolingual models, and lead to 5.4% relative performance
increase for POS tagging as compared to unnormalized input.
- Abstract(参考訳): 非標準データから標準言語への変換である語彙正規化は、ソーシャルメディア上での多言語処理タスクの性能向上を示す。
しかし、複数の言語を一つの発話で使用する場合(コードスイッチング(CS)とも呼ばれる)は、ソーシャルメディアでよく使われているにもかかわらず、これらの正規化システムによってしばしば見過ごされる。
本稿では,インドネシア語-英語 (Id-En) とトルコ語-ドイツ語 (Tr-De) の2つの言語対について,コード交換データを扱うための正規化モデルを提案する。
後者については、データセットに新しい正規化層と対応する言語idおよびposタグを導入し、正規化がposタグに与える影響を評価する。
その結果, CS-tailored normalization model は, Id-En モデル, Tr-Deモノリンガルモデルより優れており, POSタグの相対的性能は非正規化入力と比較して5.4%向上した。
関連論文リスト
- The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Script Normalization for Unconventional Writing of Under-Resourced
Languages in Bilingual Communities [36.578851892373365]
ソーシャルメディアは言語的に表現されていないコミュニティに、彼らの母国語でコンテンツを制作する素晴らしい機会を与えてきた。
本稿では、主にペルソ・アラビア文字で書かれたいくつかの言語に対するスクリプト正規化の問題に対処する。
各種ノイズレベルの合成データと変圧器モデルを用いて, この問題を効果的に再現できることを実証した。
論文 参考訳(メタデータ) (2023-05-25T18:18:42Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers [3.3302293148249125]
現在の自然言語処理のベンチマークタスクには、非公式な日々のデジタルコミュニケーションで使用されるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
機械翻訳問題として,mBARTに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2021-10-06T15:53:20Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。