論文の概要: Learning and Evaluating Emotion Lexicons for 91 Languages
- arxiv url: http://arxiv.org/abs/2005.05672v1
- Date: Tue, 12 May 2020 10:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:15:49.380506
- Title: Learning and Evaluating Emotion Lexicons for 91 Languages
- Title(参考訳): 91言語における感情辞書の学習と評価
- Authors: Sven Buechel, Susanna R\"ucker, Udo Hahn
- Abstract要約: 本稿では,任意の対象言語に対して,ほぼ任意に大きな感情辞書を作成する手法を提案する。
我々は8つの感情変数と100k以上の語彙エントリからなる表現に富んだ高被覆語彙を生成する。
我々の手法は、辞書作成に対する最先端のモノリンガルなアプローチと一致し、一部の言語や変数に対する人間の信頼性を超越した結果をもたらす。
- 参考スコア(独自算出の注目度): 10.06987680744477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion lexicons describe the affective meaning of words and thus constitute
a centerpiece for advanced sentiment and emotion analysis. Yet, manually
curated lexicons are only available for a handful of languages, leaving most
languages of the world without such a precious resource for downstream
applications. Even worse, their coverage is often limited both in terms of the
lexical units they contain and the emotional variables they feature. In order
to break this bottleneck, we here introduce a methodology for creating almost
arbitrarily large emotion lexicons for any target language. Our approach
requires nothing but a source language emotion lexicon, a bilingual word
translation model, and a target language embedding model. Fulfilling these
requirements for 91 languages, we are able to generate representationally rich
high-coverage lexicons comprising eight emotional variables with more than 100k
lexical entries each. We evaluated the automatically generated lexicons against
human judgment from 26 datasets, spanning 12 typologically diverse languages,
and found that our approach produces results in line with state-of-the-art
monolingual approaches to lexicon creation and even surpasses human reliability
for some languages and variables. Code and data are available at
https://github.com/JULIELab/MEmoLon archived under DOI
https://doi.org/10.5281/zenodo.3779901.
- Abstract(参考訳): 感情レキシコンは単語の感情的意味を記述し、それゆえ感情分析と感情分析の中心となる。
しかし、手動でキュレートされたレキシコンは少数の言語でのみ利用可能であり、世界中のほとんどの言語は下流アプリケーションにとって貴重なリソースを欠いている。
さらに悪いことに、彼らのカバー範囲は、彼らが持つ語彙単位と特徴とする感情変数の両方について制限されることが多い。
このボトルネックを解消するために,我々は,任意の対象言語に対して,ほぼ任意に大きめの感情語彙を作成する手法を提案する。
私たちのアプローチでは、ソース言語感情レキシコン、バイリンガル言語翻訳モデル、ターゲット言語埋め込みモデルのみを必要とします。
これらの要求を91言語で満たし、それぞれ10万以上の語彙エントリを持つ8つの感情変数からなる表現的にリッチな高被覆レキシコンを生成することができる。
提案手法は,26のデータセットから自動生成した語彙を,12の言語にまたがって評価し,その結果,語彙生成に対する最先端のモノリンガルアプローチと一致し,言語や変数に対する人間の信頼性を超越する結果が得られた。
コードとデータは、doi https://doi.org/10.5281/zenodo.3779901でアーカイブされている。
関連論文リスト
- Human-LLM Collaborative Construction of a Cantonese Emotion Lexicon [1.3074442742310615]
本研究では,低リソース言語であるCantoneseのための感情辞書を開発することを提案する。
LLM(Large Language Models)と人間のアノテータによって提供される感情ラベルを統合することで、既存の言語資源を活用している。
感情抽出における感情レキシコンの整合性は、3つの異なる感情テキストデータセットの修正と利用によって評価された。
論文 参考訳(メタデータ) (2024-10-15T11:57:34Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。