論文の概要: Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training
- arxiv url: http://arxiv.org/abs/2109.06050v1
- Date: Mon, 13 Sep 2021 15:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 21:26:25.814895
- Title: Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training
- Title(参考訳): 感性に基づく事前学習によるFew-Shotクロスリンガルスタンス検出
- Authors: Momchil Hardalov, Arnav Arora, Preslav Nakov, Isabelle Augenstein
- Abstract要約: 本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
- 参考スコア(独自算出の注目度): 32.800766653254634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of stance detection is to determine the viewpoint expressed in a
piece of text towards a target. These viewpoints or contexts are often
expressed in many different languages depending on the user and the platform,
which can be a local news outlet, a social media platform, a news forum, etc.
Most research in stance detection, however, has been limited to working with a
single language and on a few limited targets, with little work on cross-lingual
stance detection. Moreover, non-English sources of labelled data are often
scarce and present additional challenges. Recently, large multilingual language
models have substantially improved the performance on many non-English tasks,
especially such with limited numbers of examples. This highlights the
importance of model pre-training and its ability to learn from few examples. In
this paper, we present the most comprehensive study of cross-lingual stance
detection to date: we experiment with 15 diverse datasets in 12 languages from
6 language families, and with 6 low-resource evaluation settings each. For our
experiments, we build on pattern-exploiting training, proposing the addition of
a novel label encoder to simplify the verbalisation procedure. We further
propose sentiment-based generation of stance data for pre-training, which shows
sizeable improvement of more than 6% F1 absolute in low-shot settings compared
to several strong baselines.
- Abstract(参考訳): 姿勢検出の目標は、テキストで表現された視点を目標に向かって決定することである。
これらの視点や文脈は、ユーザーやプラットフォームによって多くの異なる言語で表現されることが多く、ローカルニュースメディア、ソーシャルメディアプラットフォーム、ニュースフォーラムなどである。
しかし、スタンス検出のほとんどの研究は、言語間のスタンス検出にはほとんど取り組んでおらず、単一の言語といくつかの限定されたターゲットでのみ行われている。
さらに、ラベル付きデータの非英語ソースは、しばしば不足しており、追加の課題がある。
近年,多くの非英語タスク,特に少数の例において,大規模な多言語言語モデルの性能が大幅に向上している。
これは、モデルの事前トレーニングの重要性と、少数の例から学ぶ能力を強調している。
本稿では,現在までの言語間スタンス検出に関する最も包括的な研究について述べる。6つの言語ファミリーの12言語で15の多様なデータセットと6つの低リソース評価設定を用いて実験する。
実験では, 音声合成の簡易化を目的として, 新たなラベルエンコーダの追加を提案する。
さらに,低ショット設定で6%以上のf1絶対値が向上するプレトレーニングのための感情に基づく姿勢データの生成法を提案する。
関連論文リスト
- Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - X-Stance: A Multilingual Multi-Target Dataset for Stance Detection [42.46681912294797]
スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。
データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語横断的な評価を可能にする。
論文 参考訳(メタデータ) (2020-03-18T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。