論文の概要: Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter
- arxiv url: http://arxiv.org/abs/2101.11978v1
- Date: Thu, 28 Jan 2021 13:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:21:42.660186
- Title: Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter
- Title(参考訳): Twitterにおけるスタンス検出のための多言語データセットの半自動生成
- Authors: Elena Zotova, Rodrigo Agerri, German Rigau
- Abstract要約: 本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
- 参考スコア(独自算出の注目度): 9.359018642178917
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Popular social media networks provide the perfect environment to study the
opinions and attitudes expressed by users. While interactions in social media
such as Twitter occur in many natural languages, research on stance detection
(the position or attitude expressed with respect to a specific topic) within
the Natural Language Processing field has largely been done for English.
Although some efforts have recently been made to develop annotated data in
other languages, there is a telling lack of resources to facilitate
multilingual and crosslingual research on stance detection. This is partially
due to the fact that manually annotating a corpus of social media texts is a
difficult, slow and costly process. Furthermore, as stance is a highly domain-
and topic-specific phenomenon, the need for annotated data is specially
demanding. As a result, most of the manually labeled resources are hindered by
their relatively small size and skewed class distribution. This paper presents
a method to obtain multilingual datasets for stance detection in Twitter.
Instead of manually annotating on a per tweet basis, we leverage user-based
information to semi-automatically label large amounts of tweets. Empirical
monolingual and cross-lingual experimentation and qualitative analysis show
that our method helps to overcome the aforementioned difficulties to build
large, balanced and multilingual labeled corpora. We believe that our method
can be easily adapted to easily generate labeled social media data for other
Natural Language Processing tasks and domains.
- Abstract(参考訳): 人気のソーシャルメディアネットワークは、ユーザーが表現した意見や態度を研究するのに最適な環境を提供します。
twitterのようなソーシャルメディアでのやりとりは多くの自然言語で起こるが、自然言語処理分野におけるスタンス検出(特定の話題に関して表現された位置や態度)の研究は、主に英語で行われている。
最近、他の言語で注釈付きデータを開発する取り組みが行われていますが、スタンス検出に関する多言語とクロスリンガルの研究を促進するためのリソースが不足しています。
これは部分的には、ソーシャルメディアテキストのコーパスを手動で注釈付けすることが難しく、遅く、コストがかかるプロセスであるという事実による。
さらに、スタンスは非常にドメインとトピック特有の現象であるため、注釈付きデータの必要性が特に要求される。
その結果、手作業でラベル付けされたリソースのほとんどは、比較的小さなサイズとスキュークラス分布によって妨げられる。
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ツイートごとに手動でアノテートするのではなく、ユーザーベースの情報を利用して大量のツイートを半自動ラベル付けします。
経験的モノリンガルおよびクロスリンガル実験および定性分析は、私たちの方法は、大規模でバランスの取れた多言語ラベル付きコーポラを構築するのに前述の困難を克服するのに役立ちます。
本手法は,他の自然言語処理タスクやドメインに対して,ラベル付きソーシャルメディアデータを容易に生成できると考えられる。
関連論文リスト
- M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets [4.478789600295492]
本稿では,既存のテキスト型Twitter感情データセットを,簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換する。
本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。
論文 参考訳(メタデータ) (2024-04-02T09:11:58Z) - Automated stance detection in complex topics and small languages: the
challenging case of immigration in polarizing news media [0.0]
本稿では,大規模言語モデルによる自動姿勢検出への適用性について検討する。
形態学的に複雑で、低資源の言語であり、社会文化的に複雑な話題である移民を含んでいる。
このケースでアプローチがうまくいけば、要求の少ないシナリオでも同じように、あるいはより良く実行されることが期待できる。
論文 参考訳(メタデータ) (2023-05-22T13:56:35Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Relational Embeddings for Language Independent Stance Detection [4.492444446637856]
本稿では,リレーショナル埋め込みを生成することで,友人やリツイートなどのソーシャル情報を活用する新しい手法を提案する。
我々の手法は手動のチューニングなしに任意の言語やターゲットに適用できる。
論文 参考訳(メタデータ) (2022-10-11T18:13:43Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。