論文の概要: Computational Approaches to Arabic-English Code-Switching
- arxiv url: http://arxiv.org/abs/2410.13318v1
- Date: Thu, 17 Oct 2024 08:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:00.143482
- Title: Computational Approaches to Arabic-English Code-Switching
- Title(参考訳): アラビア語と英語のコードスイッチングへの計算的アプローチ
- Authors: Caroline Sabty,
- Abstract要約: 我々は,現代標準アラビア語およびアラビア語-英語NERタスクの最先端技術を提案し,適用する。
NERタスクのための最初の注釈付きCSアラビア英語コーパスを作成しました。
すべての手法がCSデータ上でNERタグガーの性能を改善した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Natural Language Processing (NLP) is a vital computational method for addressing language processing, analysis, and generation. NLP tasks form the core of many daily applications, from automatic text correction to speech recognition. While significant research has focused on NLP tasks for the English language, less attention has been given to Modern Standard Arabic and Dialectal Arabic. Globalization has also contributed to the rise of Code-Switching (CS), where speakers mix languages within conversations and even within individual words (intra-word CS). This is especially common in Arab countries, where people often switch between dialects or between dialects and a foreign language they master. CS between Arabic and English is frequent in Egypt, especially on social media. Consequently, a significant amount of code-switched content can be found online. Such code-switched data needs to be investigated and analyzed for several NLP tasks to tackle the challenges of this multilingual phenomenon and Arabic language challenges. No work has been done before for several integral NLP tasks on Arabic-English CS data. In this work, we focus on the Named Entity Recognition (NER) task and other tasks that help propose a solution for the NER task on CS data, e.g., Language Identification. This work addresses this gap by proposing and applying state-of-the-art techniques for Modern Standard Arabic and Arabic-English NER. We have created the first annotated CS Arabic-English corpus for the NER task. Also, we apply two enhancement techniques to improve the NER tagger on CS data using CS contextual embeddings and data augmentation techniques. All methods showed improvements in the performance of the NER taggers on CS data. Finally, we propose several intra-word language identification approaches to determine the language type of a mixed text and identify whether it is a named entity or not.
- Abstract(参考訳): 自然言語処理(NLP)は、言語処理、分析、生成に対処するための重要な計算手法である。
NLPタスクは、自動テキスト修正から音声認識まで、多くの日常的アプリケーションの中核をなす。
英語のNLPタスクに関する重要な研究は行われているが、現代標準アラビア語や方言アラビア語にはあまり注目されていない。
グローバル化は、話者が会話や個々の単語(イントラワードCS)内でも言語を混合するコードスイッチング(Code-Switching, CS)の台頭にも寄与している。
これはアラブ諸国で特に一般的であり、人々はしばしば方言を切り替えたり、方言と彼らがマスターする外国語を切り替える。
アラビア語と英語の間のCSはエジプト、特にソーシャルメディアで頻繁に行われている。
その結果、大量のコード変更されたコンテンツがオンラインで見られるようになった。
このようなコードスイッチングされたデータは、この多言語現象とアラビア語の課題に対処するために、いくつかのNLPタスクについて調査・分析する必要がある。
アラビア語と英語のCSデータに関するいくつかのNLPタスクについては、これまで何も行われていない。
本研究では,CSデータ,例えば言語識別におけるNERタスクの解の提案を支援する,名前付きエンティティ認識(NER)タスクやその他のタスクに焦点を当てる。
この研究は、現代標準アラビア語とアラビア英語のNERに最先端の技術を提案し、適用することで、このギャップに対処する。
NERタスクのための最初の注釈付きCSアラビア英語コーパスを作成しました。
また、CSのコンテキスト埋め込みとデータ拡張技術を用いて、CSデータ上のNERタグの改善に2つの拡張手法を適用した。
すべての手法がCSデータ上でNERタグガーの性能を改善した。
最後に、単語内言語識別手法を提案し、混合テキストの言語型を決定し、それが名前付きエンティティであるか否かを識別する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - HIT: A Hierarchically Fused Deep Attention Network for Robust Code-mixed
Language Representation [18.136640008855117]
コード混合テキストの堅牢な表現学習法であるHITを提案する。
HITは階層的なトランスフォーマーベースのフレームワークで、単語間の意味的関係をキャプチャする。
ヨーロッパ語(スペイン語)とインド語(ヒンディー語、ベンガル語、タミル語、テルグ語、マラヤラム語)に対するHITの評価は、様々な最先端システムに対する大幅な性能向上を示唆している。
論文 参考訳(メタデータ) (2021-05-30T18:53:33Z) - LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation [13.947879344871442]
言語コードスイッチング評価(LinCE)のためのベンチマークを提案する。
LinCEは4つの異なるコード変更言語ペアをカバーする10のコーパスを結合する。
LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
論文 参考訳(メタデータ) (2020-05-09T00:00:08Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。