論文の概要: Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon
- arxiv url: http://arxiv.org/abs/2402.02113v1
- Date: Sat, 3 Feb 2024 10:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:03:34.033043
- Title: Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon
- Title(参考訳): 多言語感性語彙を用いた低リソース言語におけるゼロショット感性解析
- Authors: Fajri Koto and Tilman Beck and Zeerak Talat and Iryna Gurevych and
Timothy Baldwin
- Abstract要約: 私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 78.12363425794214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving multilingual language models capabilities in low-resource languages
is generally difficult due to the scarcity of large-scale data in those
languages. In this paper, we relax the reliance on texts in low-resource
languages by using multilingual lexicons in pretraining to enhance multilingual
capabilities. Specifically, we focus on zero-shot sentiment analysis tasks
across 34 languages, including 6 high/medium-resource languages, 25
low-resource languages, and 3 code-switching datasets. We demonstrate that
pretraining using multilingual lexicons, without using any sentence-level
sentiment data, achieves superior zero-shot performance compared to models
fine-tuned on English sentiment datasets, and large language models like
GPT--3.5, BLOOMZ, and XGLM. These findings are observable for unseen
low-resource languages to code-mixed scenarios involving high-resource
languages.
- Abstract(参考訳): 低リソース言語における多言語モデルの改善は、これらの言語における大規模データの不足のため、一般的には困難である。
本稿では,多言語レキシコンを事前学習に利用して,低リソース言語におけるテキストへの依存を緩和し,多言語機能の向上を図る。
具体的には、34言語にまたがるゼロショット感情分析タスクに重点を置いており、6つのハイ/medium-resource言語、25の低リソース言語、3つのコードスイッチデータセットを含む。
文レベルの感情データを用いずに,多言語辞書を用いた事前学習が,英語感情データセットやgpt--3.5,bloomz,xglmなどの大規模言語モデルと比較して,ゼロショット性能に優れていることを示す。
これらの発見は、未発見の低リソース言語から高リソース言語を含むコード混合シナリオに観察可能である。
関連論文リスト
- Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。