論文の概要: Multilingual Stance Detection: The Catalonia Independence Corpus
- arxiv url: http://arxiv.org/abs/2004.00050v1
- Date: Tue, 31 Mar 2020 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:56:26.143987
- Title: Multilingual Stance Detection: The Catalonia Independence Corpus
- Title(参考訳): 多言語姿勢検出:カタルーニャ独立コーパス
- Authors: Elena Zotova, Rodrigo Agerri, Manuel Nu\~nez, German Rigau
- Abstract要約: スタンス検出は、特定のトピックやクレームに関するテキストの態度を決定することを目的としている。
IberEval 2018でリリースされたTW-10 Referendumデータセットは、カタルーニャとスペインでマルチリンガルなスタンスアノテートデータを提供するための以前の取り組みである。
本稿では,カタルーニャ語とスペイン語のTwitterにおけるスタンス検出のための多言語データセットを提案する。
- 参考スコア(独自算出の注目度): 11.393603788068777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stance detection aims to determine the attitude of a given text with respect
to a specific topic or claim. While stance detection has been fairly well
researched in the last years, most the work has been focused on English. This
is mainly due to the relative lack of annotated data in other languages. The
TW-10 Referendum Dataset released at IberEval 2018 is a previous effort to
provide multilingual stance-annotated data in Catalan and Spanish.
Unfortunately, the TW-10 Catalan subset is extremely imbalanced. This paper
addresses these issues by presenting a new multilingual dataset for stance
detection in Twitter for the Catalan and Spanish languages, with the aim of
facilitating research on stance detection in multilingual and cross-lingual
settings. The dataset is annotated with stance towards one topic, namely, the
independence of Catalonia. We also provide a semi-automatic method to annotate
the dataset based on a categorization of Twitter users. We experiment on the
new corpus with a number of supervised approaches, including linear classifiers
and deep learning methods. Comparison of our new corpus with the with the TW-1O
dataset shows both the benefits and potential of a well balanced corpus for
multilingual and cross-lingual research on stance detection. Finally, we
establish new state-of-the-art results on the TW-10 dataset, both for Catalan
and Spanish.
- Abstract(参考訳): スタンス検出は、特定のトピックやクレームに関する所定のテキストの態度を決定することを目的としている。
姿勢検出はここ数年でかなりよく研究されてきたが、ほとんどが英語に焦点が当てられている。
これは主に、他の言語に注釈付きデータが比較的ないためである。
IberEval 2018でリリースされたTW-10 Referendum Datasetは、カタルーニャ語とスペイン語でマルチリンガルなスタンスアノテートデータを提供するための以前の取り組みである。
残念ながら、TW-10 カタルーニャのサブセットは極めて不均衡である。
本稿では,多言語・多言語環境でのスタンス検出研究の促進を目的として,カタルーニャ語・スペイン語用twitterにおけるスタンス検出のための新しい多言語データセットを提案する。
データセットには、1つのトピック、すなわちカタルーニャの独立に対するスタンスが注釈されている。
また,twitterユーザの分類に基づいてデータセットにアノテートする半自動的な手法を提案する。
線形分類器や深層学習法など,多数の教師付き手法を用いて新しいコーパスを実験した。
新しいコーパスとTW-1Oデータセットを比較すると、多言語および多言語による姿勢検出研究のためのバランスの良いコーパスの利点と可能性の両方が示される。
最後に、カタルーニャ語とスペイン語の両方で、TW-10データセットに新しい最先端結果を確立する。
関連論文リスト
- Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z) - Cross-lingual Emotion Intensity Prediction [13.305282275999778]
スペイン語およびカタルーニャ語ツイートにおける微粒な感情検出のための言語間移動手法
並列データに対する様々な要件を持つ6つの言語間アプローチ、例えば機械翻訳と言語間埋め込みを比較した。
その結果、並列データ要求の少ないメソッドは、より並列データを使用するメソッドよりも驚くほど優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2020-04-08T16:28:16Z) - X-Stance: A Multilingual Multi-Target Dataset for Stance Detection [42.46681912294797]
スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。
データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語横断的な評価を可能にする。
論文 参考訳(メタデータ) (2020-03-18T17:58:10Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。