論文の概要: Experiences from Creating a Benchmark for Sentiment Classification for Varieties of English
- arxiv url: http://arxiv.org/abs/2410.11216v2
- Date: Wed, 13 Nov 2024 04:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:25:02.905084
- Title: Experiences from Creating a Benchmark for Sentiment Classification for Varieties of English
- Title(参考訳): 各種英語の感性分類のためのベンチマークの作成からの経験
- Authors: Dipankar Srirag, Jordan Painter, Aditya Joshi, Diptesh Kanojia,
- Abstract要約: 既存のベンチマークは、英語の言語変種のように、言語的な多様性を説明できないことが多い。
本稿では、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情分類ベンチマークを構築した経験について紹介する。
- 参考スコア(独自算出の注目度): 8.823927892310238
- License:
- Abstract: Existing benchmarks often fail to account for linguistic diversity, like language variants of English. In this paper, we share our experiences from our ongoing project of building a sentiment classification benchmark for three variants of English: Australian (en-AU), Indian (en-IN), and British (en-UK) English. Using Google Places reviews, we explore the effects of various sampling techniques based on label semantics, review length, and sentiment proportion and report performances on three fine-tuned BERT-based models. Our initial evaluation reveals significant performance variations influenced by sample characteristics, label semantics, and language variety, highlighting the need for nuanced benchmark design. We offer actionable insights for researchers to create robust benchmarks, emphasising the importance of diverse sampling, careful label definition, and comprehensive evaluation across linguistic varieties.
- Abstract(参考訳): 既存のベンチマークは、英語の言語変種のように、言語的な多様性を説明できないことが多い。
本稿では、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3つの変種に対する感情分類ベンチマークを構築するという、現在進行中のプロジェクトからの経験について紹介する。
Google Placesのレビューを用いて,ラベルセマンティクス,レビュー長,感情の比率に基づく様々なサンプリング手法の効果について検討し,3つの細調整BERTモデルの性能について報告する。
最初の評価では、サンプル特性、ラベルの意味、言語多様性の影響を受け、ニュアンスドベンチマーク設計の必要性を強調した。
我々は、研究者が堅牢なベンチマークを作成するための実用的な洞察を提供し、多様なサンプリング、注意深いラベル定義、言語品種間の包括的評価の重要性を強調している。
関連論文リスト
- BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English [8.823927892310238]
BESSTIEは、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情と皮肉の分類のベンチマークである。
位置に基づくフィルタリングとトピックに基づくフィルタリングという2つの手法を用いて,これらの言語品種のデータセットを収集する。
言語変異のネイティブ話者は、感情ラベルと皮肉ラベルでデータセットを手動で注釈付けする。
論文 参考訳(メタデータ) (2024-12-06T02:34:40Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - Leveraging Foreign Language Labeled Data for Aspect-Based Opinion Mining [1.503974529275767]
本稿では,外国語のラベル付きデータを利用したアスペクトベースの意見マイニング手法を提案する。
異なる言語におけるアスペクトや意見は異なる単語で表現される可能性があるため、単語埋め込みを用いて提案する。
またベトナムのレストランレビューから抽出したアスペクトと感情極性の注釈付きコーパスも導入した。
論文 参考訳(メタデータ) (2020-03-15T15:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。