論文の概要: Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation
- arxiv url: http://arxiv.org/abs/2010.03486v1
- Date: Wed, 7 Oct 2020 15:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:20:24.694130
- Title: Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation
- Title(参考訳): 多言語トランスフォーマーと自動翻訳による非英語ツイートの感情分析の改善
- Authors: Valentin Barriere and Alexandra Balahur
- Abstract要約: 我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
- 参考スコア(独自算出の注目度): 77.69102711230248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tweets are specific text data when compared to general text. Although
sentiment analysis over tweets has become very popular in the last decade for
English, it is still difficult to find huge annotated corpora for non-English
languages. The recent rise of the transformer models in Natural Language
Processing allows to achieve unparalleled performances in many tasks, but these
models need a consequent quantity of text to adapt to the tweet domain. We
propose the use of a multilingual transformer model, that we pre-train over
English tweets and apply data-augmentation using automatic translation to adapt
the model to non-English languages. Our experiments in French, Spanish, German
and Italian suggest that the proposed technique is an efficient way to improve
the results of the transformers over small corpora of tweets in a non-English
language.
- Abstract(参考訳): ツイートは一般的なテキストと比較して特定のテキストデータである。
ツイートに対する感情分析は、過去10年間に英語で非常に人気になったが、英語以外の言語で大量の注釈付きコーパスを見つけるのは難しい。
最近の自然言語処理におけるトランスフォーマーモデルの台頭により、多くのタスクで並列性のないパフォーマンスを実現することができるが、これらのモデルは、ツイートドメインに適応するために連続した量のテキストを必要とする。
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりもトランスフォーマーの結果を改善する効果的な方法であることを示唆している。
関連論文リスト
- Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Multilingual Augmenter: The Model Chooses [0.0]
私たちは英語の文を受け取り、それを英語に翻訳する前に別の言語に翻訳します。
本稿では、108の異なる言語バック翻訳が様々なメトリクスやテキスト埋め込みに与える影響について考察する。
論文 参考訳(メタデータ) (2021-02-19T02:08:26Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。