論文の概要: Elevating Code-mixed Text Handling through Auditory Information of Words
- arxiv url: http://arxiv.org/abs/2310.18155v1
- Date: Fri, 27 Oct 2023 14:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:31:30.232504
- Title: Elevating Code-mixed Text Handling through Auditory Information of Words
- Title(参考訳): 単語の聴覚情報によるコード混合テキスト処理の高度化
- Authors: Mamta, Zishan Ahmad and Asif Ekbal
- Abstract要約: 本稿では,SOUNDEXの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
- 参考スコア(独自算出の注目度): 24.53638976212391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing popularity of code-mixed data, there is an increasing need
for better handling of this type of data, which poses a number of challenges,
such as dealing with spelling variations, multiple languages, different
scripts, and a lack of resources. Current language models face difficulty in
effectively handling code-mixed data as they primarily focus on the semantic
representation of words and ignore the auditory phonetic features. This leads
to difficulties in handling spelling variations in code-mixed text. In this
paper, we propose an effective approach for creating language models for
handling code-mixed textual data using auditory information of words from
SOUNDEX. Our approach includes a pre-training step based on
masked-language-modelling, which includes SOUNDEX representations (SAMLM) and a
new method of providing input data to the pre-trained model. Through
experimentation on various code-mixed datasets (of different languages) for
sentiment, offensive and aggression classification tasks, we establish that our
novel language modeling approach (SAMLM) results in improved robustness towards
adversarial attacks on code-mixed classification tasks. Additionally, our SAMLM
based approach also results in better classification results over the popular
baselines for code-mixed tasks. We use the explainability technique, SHAP
(SHapley Additive exPlanations) to explain how the auditory features
incorporated through SAMLM assist the model to handle the code-mixed text
effectively and increase robustness against adversarial attacks
\footnote{Source code has been made available on
\url{https://github.com/20118/DefenseWithPhonetics},
\url{https://www.iitp.ac.in/~ai-nlp-ml/resources.html\#Phonetics}}.
- Abstract(参考訳): コードミックスデータの人気が高まっているため、このタイプのデータを扱う必要性が高まっており、スペルのバリエーション、複数の言語、異なるスクリプト、リソース不足など、多くの課題が発生している。
現在の言語モデルは、主に単語の意味表現に焦点を当て、聴覚音声の特徴を無視するため、コードミックスデータの効果的処理に困難に直面している。
これにより、コード混合テキストの綴りのバリエーションを扱うのが困難になる。
本稿では,SOUNDEXからの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
感情・攻撃的・攻撃的分類タスクのための様々なコード混合データセット(異なる言語)の実験を通じて、新しい言語モデリングアプローチ(samlm)により、コード混合分類タスクにおける敵対的攻撃に対する堅牢性が向上することを確認した。
さらに、SAMLMベースのアプローチは、コードミックスタスクの一般的なベースラインよりも、より良い分類結果をもたらす。
説明可能性のテクニックであるshap(shapley additive descriptions)を使用して、samlmが組み込んだ聴覚機能は、コード混合されたテキストを効果的に処理し、敵の攻撃に対する堅牢性を高めるためにモデルをどのように支援するかを説明し、 \url{https://github.com/20118/ defensewithphonetics}, \url{https://www.iitp.ac.in/~ai-nlp-ml/resources.html\#phonetics}}で利用可能になった。
関連論文リスト
- TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。
クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - SelfMix: Robust Learning Against Textual Label Noise with Self-Mixup
Training [15.877178854064708]
SelfMixは、テキスト分類タスクのラベルノイズを処理するためのシンプルで効果的な方法である。
本手法は,1つのモデル上でのドロップアウト機構を利用して,自己学習における確認バイアスを低減する。
論文 参考訳(メタデータ) (2022-10-10T09:46:40Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。