論文の概要: Share What You Already Know: Cross-Language-Script Transfer and
Alignment for Sentiment Detection in Code-Mixed Data
- arxiv url: http://arxiv.org/abs/2402.04542v1
- Date: Wed, 7 Feb 2024 02:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:08:02.745718
- Title: Share What You Already Know: Cross-Language-Script Transfer and
Alignment for Sentiment Detection in Code-Mixed Data
- Title(参考訳): コード混合データにおける感情検出のための言語間スクリプト転送とアライメント
- Authors: Niraj Pahari and Kazutaka Shimada
- Abstract要約: コードスイッチングには複数の言語が混在しており、ソーシャルメディアのテキストでますます発生してきている現象である。
事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。
各言語でネイティブスクリプトを使用すると、事前訓練された知識のため、テキストのより良い表現が生成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching entails mixing multiple languages. It is an increasingly
occurring phenomenon in social media texts. Usually, code-mixed texts are
written in a single script, even though the languages involved have different
scripts. Pre-trained multilingual models primarily utilize the data in the
native script of the language. In existing studies, the code-switched texts are
utilized as they are. However, using the native script for each language can
generate better representations of the text owing to the pre-trained knowledge.
Therefore, a cross-language-script knowledge sharing architecture utilizing the
cross attention and alignment of the representations of text in individual
language scripts was proposed in this study. Experimental results on two
different datasets containing Nepali-English and Hindi-English code-switched
texts, demonstrate the effectiveness of the proposed method. The interpretation
of the model using model explainability technique illustrates the sharing of
language-specific knowledge between language-specific representations.
- Abstract(参考訳): コードスイッチングには複数の言語が混在する。
これはソーシャルメディアのテキストでますます発生している現象である。
通常、コード混合テキストは、1つのスクリプトで書かれるが、関連する言語は異なるスクリプトを持っている。
事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。
既存の研究では、コード交換されたテキストをそのまま利用する。
しかし、各言語でネイティブスクリプトを使用すると、事前訓練された知識により、テキストの表現性が向上する。
そこで本研究では,個々の言語スクリプトにおけるテキスト表現の相互注意とアライメントを利用した言語間知識共有アーキテクチャを提案する。
ネパール英語とヒンズー英語のコード切り換えテキストを含む2つの異なるデータセットに関する実験結果は,提案手法の有効性を示している。
モデル説明可能性を用いたモデルの解釈は、言語固有の表現間の言語固有の知識の共有を示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。