論文の概要: Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted
Sentiment Classification Benchmark
- arxiv url: http://arxiv.org/abs/2306.07902v1
- Date: Tue, 13 Jun 2023 16:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:42:34.314695
- Title: Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted
Sentiment Classification Benchmark
- Title(参考訳): 感性データセットの多言語コーパスと多面的感性分類ベンチマーク
- Authors: {\L}ukasz Augustyniak, Szymon Wo\'zniak, Marcin Gruza, Piotr Gramacki,
Krzysztof Rajda, Miko{\l}aj Morzy, Tomasz Kajdanowicz
- Abstract要約: この研究は、感情モデルをトレーニングするためのデータセットの大規模なオープンな多言語コーパスを提示する。
コーパスは、科学文献で報告された350以上のデータセットから、79個の手動で選択されたデータセットで構成されている。
本稿では,異なるベースモデル,トレーニング目標,データセット収集,微調整戦略などを用いて実施した数百の実験を要約した多面的感情分類ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 7.888702613862612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite impressive advancements in multilingual corpora collection and model
training, developing large-scale deployments of multilingual models still
presents a significant challenge. This is particularly true for language tasks
that are culture-dependent. One such example is the area of multilingual
sentiment analysis, where affective markers can be subtle and deeply ensconced
in culture. This work presents the most extensive open massively multilingual
corpus of datasets for training sentiment models. The corpus consists of 79
manually selected datasets from over 350 datasets reported in the scientific
literature based on strict quality criteria. The corpus covers 27 languages
representing 6 language families. Datasets can be queried using several
linguistic and functional features. In addition, we present a multi-faceted
sentiment classification benchmark summarizing hundreds of experiments
conducted on different base models, training objectives, dataset collections,
and fine-tuning strategies.
- Abstract(参考訳): 多言語コーパスの収集とモデルトレーニングの大幅な進歩にもかかわらず、多言語モデルの大規模展開は依然として大きな課題である。
これは特に文化に依存した言語タスクに当てはまる。
そのような例の1つは多言語感情分析の分野であり、感情的マーカーは文化において微妙で深く理解される。
この研究は、感情モデルをトレーニングするためのデータセットの大規模なオープンな多言語コーパスを示す。
コーパスは、厳格な品質基準に基づいて、350以上のデータセットから選択された79のデータセットで構成されている。
コーパスは6つの言語族を表す27の言語を含む。
データセットはいくつかの言語的特徴と機能的特徴を使ってクエリできる。
さらに,異なるベースモデル,トレーニング目標,データセット収集,微調整戦略などを用いて実施した数百の実験を要約した多面的感情分類ベンチマークを提案する。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。