論文の概要: X-Stance: A Multilingual Multi-Target Dataset for Stance Detection
- arxiv url: http://arxiv.org/abs/2003.08385v2
- Date: Wed, 10 Jun 2020 15:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:07:08.491998
- Title: X-Stance: A Multilingual Multi-Target Dataset for Stance Detection
- Title(参考訳): X-Stance: スタンス検出のための多言語マルチターゲットデータセット
- Authors: Jannis Vamvas and Rico Sennrich
- Abstract要約: スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。
データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語横断的な評価を可能にする。
- 参考スコア(独自算出の注目度): 42.46681912294797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extract a large-scale stance detection dataset from comments written by
candidates of elections in Switzerland. The dataset consists of German, French
and Italian text, allowing for a cross-lingual evaluation of stance detection.
It contains 67 000 comments on more than 150 political issues (targets). Unlike
stance detection models that have specific target issues, we use the dataset to
train a single model on all the issues. To make learning across targets
possible, we prepend to each instance a natural question that represents the
target (e.g. "Do you support X?"). Baseline results from multilingual BERT show
that zero-shot cross-lingual and cross-target transfer of stance detection is
moderately successful with this approach.
- Abstract(参考訳): スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。
データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語間評価を可能にする。
150以上の政治問題(ターゲット)について67万件のコメントがある。
特定のターゲットを持つスタンス検出モデルとは異なり、データセットを使用して、すべての問題に対して単一のモデルをトレーニングします。
ターゲット間の学習を可能にするために、各インスタンスに対して、ターゲットを表す自然な質問(例えば、"あなたはxをサポートしていますか?
多言語BERTのベースライン結果から, 姿勢検出のゼロショット・クロスリンガル・クロスターゲット転送が適度に成功していることが示された。
関連論文リスト
- DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We
Actually Have [83.93896701392238]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
まず、マルチタスク方式でモデルをトレーニングし、ターゲット要件に数発の適応を実行する。
我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - Towards Zero-shot Cross-lingual Image Retrieval and Tagging [1.4425878137951236]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
論文 参考訳(メタデータ) (2021-09-15T23:39:15Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - Multilingual Stance Detection: The Catalonia Independence Corpus [11.393603788068777]
スタンス検出は、特定のトピックやクレームに関するテキストの態度を決定することを目的としている。
IberEval 2018でリリースされたTW-10 Referendumデータセットは、カタルーニャとスペインでマルチリンガルなスタンスアノテートデータを提供するための以前の取り組みである。
本稿では,カタルーニャ語とスペイン語のTwitterにおけるスタンス検出のための多言語データセットを提案する。
論文 参考訳(メタデータ) (2020-03-31T18:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。