論文の概要: Cross-lingual Emotion Intensity Prediction
- arxiv url: http://arxiv.org/abs/2004.04103v2
- Date: Tue, 24 Nov 2020 18:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:54:49.043721
- Title: Cross-lingual Emotion Intensity Prediction
- Title(参考訳): 言語間感情インテンシティ予測
- Authors: Irean Navas Alejo, Toni Badia, and Jeremy Barnes
- Abstract要約: スペイン語およびカタルーニャ語ツイートにおける微粒な感情検出のための言語間移動手法
並列データに対する様々な要件を持つ6つの言語間アプローチ、例えば機械翻訳と言語間埋め込みを比較した。
その結果、並列データ要求の少ないメソッドは、より並列データを使用するメソッドよりも驚くほど優れた性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 13.305282275999778
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotion intensity prediction determines the degree or intensity of an emotion
that the author expresses in a text, extending previous categorical approaches
to emotion detection. While most previous work on this topic has concentrated
on English texts, other languages would also benefit from fine-grained emotion
classification, preferably without having to recreate the amount of annotated
data available in English in each new language. Consequently, we explore
cross-lingual transfer approaches for fine-grained emotion detection in Spanish
and Catalan tweets. To this end we annotate a test set of Spanish and Catalan
tweets using Best-Worst scaling. We compare six cross-lingual approaches, e.g.,
machine translation and cross-lingual embeddings, which have varying
requirements for parallel data -- from millions of parallel sentences to
completely unsupervised. The results show that on this data, methods with low
parallel-data requirements perform surprisingly better than methods that use
more parallel data, which we explain through an in-depth error analysis. We
make the dataset and the code available at
\url{https://github.com/jerbarnes/fine-grained_cross-lingual_emotion}
- Abstract(参考訳): 感情の強度予測は、著者がテキストで表現した感情の程度や強度を決定し、以前のカテゴリー的アプローチを感情検出に拡張する。
このトピックに関するこれまでのほとんどの研究は英語のテキストに集中しているが、他の言語はそれぞれの新言語で利用可能な注釈付きデータの量を再現することなく、よりきめ細かい感情分類の恩恵を受けるだろう。
その結果,スペインおよびカタルーニャのつぶやきにおける微粒な感情検出のための言語間移動手法について検討した。
この目的のために、Best-Worstスケーリングを使用して、スペインとカタルーニャのツイートのテストセットに注釈を付けました。
機械翻訳や言語間埋め込みなど,数百万の並列文から完全に教師なしに至るまで,並列データに対するさまざまな要件を持つ6つの言語間アプローチを比較した。
その結果、このデータでは、より並列データを使用するメソッドよりも、低並列データ要求のメソッドの方が驚くほど優れており、詳細なエラー解析によって説明できることがわかった。
データセットとコードは \url{https://github.com/jerbarnes/fine-fine_cross-lingual_emotion} で利用可能になります。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Cross-lingual Emotion Detection [6.767035411834297]
我々は英語をアラビア語とスペイン語をターゲット言語とする原語とみなしている。
対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-art)を5%上回りました。
次に、英語データのみを用いた言語間アプローチを用いることで、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-10T19:52:06Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection
with Cross-lingual Transfer [10.007363787391952]
本稿では,攻撃的言語を多言語で識別する手法について述べる。
本研究では,異なるしきい値を持つ半教師付きラベルの追加と,データ選択による言語間移動という2つのデータ拡張戦略について検討する。
われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。
論文 参考訳(メタデータ) (2020-08-04T06:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。