論文の概要: Cross-lingual Emotion Detection
- arxiv url: http://arxiv.org/abs/2106.06017v1
- Date: Thu, 10 Jun 2021 19:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 07:32:22.375855
- Title: Cross-lingual Emotion Detection
- Title(参考訳): 言語間感情検出
- Authors: Sabit Hassan, Shaden Shaar, Kareem Darwish
- Abstract要約: 我々は英語をアラビア語とスペイン語をターゲット言語とする原語とみなしている。
対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-art)を5%上回りました。
次に、英語データのみを用いた言語間アプローチを用いることで、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。
- 参考スコア(独自算出の注目度): 6.767035411834297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion detection is of great importance for understanding humans.
Constructing annotated datasets to train automated models can be expensive. We
explore the efficacy of cross-lingual approaches that would use data from a
source language to build models for emotion detection in a target language. We
compare three approaches, namely: i) using inherently multilingual models; ii)
translating training data into the target language; and iii) using an
automatically tagged parallel corpus. In our study, we consider English as the
source language with Arabic and Spanish as target languages. We study the
effectiveness of different classification models such as BERT and SVMs trained
with different features. Our BERT-based monolingual models that are trained on
target language data surpass state-of-the-art (SOTA) by 4% and 5% absolute
Jaccard score for Arabic and Spanish respectively. Next, we show that using
cross-lingual approaches with English data alone, we can achieve more than 90%
and 80% relative effectiveness of the Arabic and Spanish BERT models
respectively. Lastly, we use LIME to interpret the differences between models.
- Abstract(参考訳): 感情検出は人間を理解する上で非常に重要である。
自動モデルをトレーニングするための注釈付きデータセットの構築は、コストがかかる可能性がある。
対象言語における感情検出モデルを構築するために,ソース言語からのデータを用いた言語間アプローチの有効性を検討する。
i) 本質的に多言語モデル,i) 学習データを対象言語に翻訳する,iii) 自動的にタグ付けされた並列コーパスを用いた3つのアプローチを比較した。
本研究では,アラビア語とスペイン語を対象言語とするソース言語として英語を考察した。
本研究では,BERT や SVM などの異なる分類モデルの有効性について検討した。
対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-art)を5%上回りました。
次に、英語データのみを用いた言語間アプローチを用いて、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。
最後に、モデル間の差異を解釈するためにLIMEを使用します。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - cViL: Cross-Lingual Training of Vision-Language Models using Knowledge
Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。
日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。
我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-06-07T14:46:30Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。