論文の概要: XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection
- arxiv url: http://arxiv.org/abs/2011.01612v2
- Date: Fri, 6 Nov 2020 10:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:42:44.027223
- Title: XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection
- Title(参考訳): XED:感覚分析と感情検出のための多言語データセット
- Authors: Emily \"Ohman, Marc P\`amies, Kaisla Kajava, J\"org Tiedemann
- Abstract要約: データセットは、人間の注釈付きフィンランド語(25k)と英語(30k)からなる
我々は、Plutchikのコア感情を使って、中立性を加えたデータセットに注釈を付け、マルチラベルのマルチクラスデータセットを作成します。
データセットは言語固有のBERTモデルとSVMを使用して慎重に評価され、XEDが他の類似したデータセットと同等に動作することを示す。
- 参考スコア(独自算出の注目度): 0.42056926734482064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce XED, a multilingual fine-grained emotion dataset. The dataset
consists of human-annotated Finnish (25k) and English sentences (30k), as well
as projected annotations for 30 additional languages, providing new resources
for many low-resource languages. We use Plutchik's core emotions to annotate
the dataset with the addition of neutral to create a multilabel multiclass
dataset. The dataset is carefully evaluated using language-specific BERT models
and SVMs to show that XED performs on par with other similar datasets and is
therefore a useful tool for sentiment analysis and emotion detection.
- Abstract(参考訳): マルチリンガルな感情データセットであるXEDを紹介する。
このデータセットは、人間の注釈付きフィンランド語(25k)と英語(30k)の文と、30の追加言語用のアノテーションで構成され、多くの低リソース言語に新たなリソースを提供する。
plutchikのコア感情を使ってデータセットにアノテートし、中性を追加してマルチラベルのマルチクラスデータセットを作成します。
データセットは言語固有のBERTモデルとSVMを使用して慎重に評価され、XEDが他の類似したデータセットと同等に動作することを示す。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language [7.59001382786429]
本稿では,ドイツにおける大規模生物関係抽出データセットの作成のために,遠距離監視法を適用した。
我々のデータセットは,9種類の関係型に対して80,000以上のインスタンスで構成されており,ドイツで最大規模の関係抽出データセットである。
私たちは、自動生成されたデータセット上に、最先端の機械学習モデルをトレーニングし、それらもリリースします。
論文 参考訳(メタデータ) (2024-03-25T19:40:26Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z) - MINION: a Large-Scale and Diverse Dataset for Multilingual Event
Detection [65.46122357928041]
Event Detection (ED) は、テキスト中のイベント参照のトリガーワードを識別し、分類するタスクである。
主な疑問は、既存のEDモデルが異なる言語でどれだけうまく機能するか、EDが他の言語でどの程度困難であるか、EDの知識とアノテーションが言語間でどの程度うまく伝達できるかである。
EDのための大規模多言語データセット(MINION)を導入し、8つの異なる言語でのイベントを一貫してアノテートする。
論文 参考訳(メタデータ) (2022-11-11T02:09:51Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。