論文の概要: Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training
- arxiv url: http://arxiv.org/abs/2109.06050v1
- Date: Mon, 13 Sep 2021 15:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 21:26:25.814895
- Title: Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training
- Title(参考訳): 感性に基づく事前学習によるFew-Shotクロスリンガルスタンス検出
- Authors: Momchil Hardalov, Arnav Arora, Preslav Nakov, Isabelle Augenstein
- Abstract要約: 本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
- 参考スコア(独自算出の注目度): 32.800766653254634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of stance detection is to determine the viewpoint expressed in a
piece of text towards a target. These viewpoints or contexts are often
expressed in many different languages depending on the user and the platform,
which can be a local news outlet, a social media platform, a news forum, etc.
Most research in stance detection, however, has been limited to working with a
single language and on a few limited targets, with little work on cross-lingual
stance detection. Moreover, non-English sources of labelled data are often
scarce and present additional challenges. Recently, large multilingual language
models have substantially improved the performance on many non-English tasks,
especially such with limited numbers of examples. This highlights the
importance of model pre-training and its ability to learn from few examples. In
this paper, we present the most comprehensive study of cross-lingual stance
detection to date: we experiment with 15 diverse datasets in 12 languages from
6 language families, and with 6 low-resource evaluation settings each. For our
experiments, we build on pattern-exploiting training, proposing the addition of
a novel label encoder to simplify the verbalisation procedure. We further
propose sentiment-based generation of stance data for pre-training, which shows
sizeable improvement of more than 6% F1 absolute in low-shot settings compared
to several strong baselines.
- Abstract(参考訳): 姿勢検出の目標は、テキストで表現された視点を目標に向かって決定することである。
これらの視点や文脈は、ユーザーやプラットフォームによって多くの異なる言語で表現されることが多く、ローカルニュースメディア、ソーシャルメディアプラットフォーム、ニュースフォーラムなどである。
しかし、スタンス検出のほとんどの研究は、言語間のスタンス検出にはほとんど取り組んでおらず、単一の言語といくつかの限定されたターゲットでのみ行われている。
さらに、ラベル付きデータの非英語ソースは、しばしば不足しており、追加の課題がある。
近年,多くの非英語タスク,特に少数の例において,大規模な多言語言語モデルの性能が大幅に向上している。
これは、モデルの事前トレーニングの重要性と、少数の例から学ぶ能力を強調している。
本稿では,現在までの言語間スタンス検出に関する最も包括的な研究について述べる。6つの言語ファミリーの12言語で15の多様なデータセットと6つの低リソース評価設定を用いて実験する。
実験では, 音声合成の簡易化を目的として, 新たなラベルエンコーダの追加を提案する。
さらに,低ショット設定で6%以上のf1絶対値が向上するプレトレーニングのための感情に基づく姿勢データの生成法を提案する。
関連論文リスト
- Analyzing the Evaluation of Cross-Lingual Knowledge Transfer in
Multilingual Language Models [12.662039551306632]
その結果,多言語モデルの高性能化は,実際の言語知識の伝達を必要としない要因が主な原因であることが示唆された。
具体的には、特に低リソース言語において、言語間で転送されたものは、主にデータアーチファクトとバイアスです。
論文 参考訳(メタデータ) (2024-02-03T09:41:52Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - X-Stance: A Multilingual Multi-Target Dataset for Stance Detection [42.46681912294797]
スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。
データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語横断的な評価を可能にする。
論文 参考訳(メタデータ) (2020-03-18T17:58:10Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。