論文の概要: Cross-lingual Transfer of Sentiment Classifiers
- arxiv url: http://arxiv.org/abs/2005.07456v3
- Date: Wed, 24 Mar 2021 15:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:24:45.526067
- Title: Cross-lingual Transfer of Sentiment Classifiers
- Title(参考訳): 感性分類器の言語間移動
- Authors: Marko Robnik-Sikonja, Kristjan Reba, Igor Mozetic
- Abstract要約: 言語間単語埋め込みは、類似した単語が整列するように、異なる言語のベクトル空間を変換する。
言語間埋め込みを用いて、Twitterの感情の機械学習予測モデルを13言語間で転送する。
- 参考スコア(独自算出の注目度): 2.1600185911839893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings represent words in a numeric space so that semantic relations
between words are represented as distances and directions in the vector space.
Cross-lingual word embeddings transform vector spaces of different languages so
that similar words are aligned. This is done by constructing a mapping between
vector spaces of two languages or learning a joint vector space for multiple
languages. Cross-lingual embeddings can be used to transfer machine learning
models between languages, thereby compensating for insufficient data in
less-resourced languages. We use cross-lingual word embeddings to transfer
machine learning prediction models for Twitter sentiment between 13 languages.
We focus on two transfer mechanisms that recently show superior transfer
performance. The first mechanism uses the trained models whose input is the
joint numerical space for many languages as implemented in the LASER library.
The second mechanism uses large pretrained multilingual BERT language models.
Our experiments show that the transfer of models between similar languages is
sensible, even with no target language data. The performance of cross-lingual
models obtained with the multilingual BERT and LASER library is comparable, and
the differences are language-dependent. The transfer with CroSloEngual BERT,
pretrained on only three languages, is superior on these and some closely
related languages.
- Abstract(参考訳): 単語埋め込みは、単語間の意味関係がベクトル空間内の距離と方向として表現されるように、数値空間内の単語を表す。
言語間単語埋め込みは、類似した単語が整列するように、異なる言語のベクトル空間を変換する。
これは、2つの言語のベクトル空間間の写像を構築したり、複数の言語の合同ベクトル空間を学ぶことで達成される。
言語間埋め込みは、機械学習モデルを言語間で転送するために使用することができ、低リソースの言語で不十分なデータを補うことができる。
言語間単語埋め込みを用いて、Twitter感情の機械学習予測モデルを13言語間で転送する。
最近,転送性能が向上した2つの転送機構に注目した。
最初のメカニズムは、レーザーライブラリに実装された多くの言語に対する入力が結合数値空間である訓練されたモデルを使用する。
第2のメカニズムは、大きな事前訓練された多言語BERT言語モデルを使用する。
実験の結果,対象言語データがない場合でも,類似言語間のモデル転送は合理的であることがわかった。
多言語BERT と LASER ライブラリで得られた言語間モデルの性能は同等であり,言語に依存している。
CroSloEngual BERTとの移行は、わずか3つの言語で事前訓練されているが、これらといくつかの近縁言語より優れている。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings [4.2243058640527575]
言語間移動学習は多言語大言語モデル(LLM)の重要な特性である
1)事前学習とモデルアーキテクチャが言語表現に与える影響,2)言語モデルに埋め込まれた言語間表現の応用について検討する。
論文 参考訳(メタデータ) (2023-11-29T19:20:14Z) - How Do Multilingual Encoders Learn Cross-lingual Representation? [8.409283426564977]
言語間転送は、他言語からの転送によって、トレーニングデータをほとんど、あるいは全く持たない言語に恩恵を与える。
この論文はまず、様々なタスクにおける先行技術と比較して、驚くべき言語間効果を示す。
また、多言語エンコーダに異なる言語間信号を注入する方法や、これらのモデルを用いた言語間転送の最適化挙動についても検討する。
論文 参考訳(メタデータ) (2022-07-12T17:57:05Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。