Fugu-MT 論文翻訳(概要): Experiences from Creating a Benchmark for Sentiment Classification for Varieties of English

論文の概要: Experiences from Creating a Benchmark for Sentiment Classification for Varieties of English

arxiv url: http://arxiv.org/abs/2410.11216v2
Date: Wed, 13 Nov 2024 04:16:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.578614
Title: Experiences from Creating a Benchmark for Sentiment Classification for Varieties of English
Title（参考訳）: 各種英語の感性分類のためのベンチマークの作成からの経験
Authors: Dipankar Srirag, Jordan Painter, Aditya Joshi, Diptesh Kanojia,
Abstract要約: 既存のベンチマークは、英語の言語変種のように、言語的な多様性を説明できないことが多い。本稿では、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情分類ベンチマークを構築した経験について紹介する。
参考スコア（独自算出の注目度）: 8.823927892310238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing benchmarks often fail to account for linguistic diversity, like language variants of English. In this paper, we share our experiences from our ongoing project of building a sentiment classification benchmark for three variants of English: Australian (en-AU), Indian (en-IN), and British (en-UK) English. Using Google Places reviews, we explore the effects of various sampling techniques based on label semantics, review length, and sentiment proportion and report performances on three fine-tuned BERT-based models. Our initial evaluation reveals significant performance variations influenced by sample characteristics, label semantics, and language variety, highlighting the need for nuanced benchmark design. We offer actionable insights for researchers to create robust benchmarks, emphasising the importance of diverse sampling, careful label definition, and comprehensive evaluation across linguistic varieties.
Abstract（参考訳）: 既存のベンチマークは、英語の言語変種のように、言語的な多様性を説明できないことが多い。本稿では、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3つの変種に対する感情分類ベンチマークを構築するという、現在進行中のプロジェクトからの経験について紹介する。 Google Placesのレビューを用いて,ラベルセマンティクス,レビュー長,感情の比率に基づく様々なサンプリング手法の効果について検討し,3つの細調整BERTモデルの性能について報告する。最初の評価では、サンプル特性、ラベルの意味、言語多様性の影響を受け、ニュアンスドベンチマーク設計の必要性を強調した。我々は、研究者が堅牢なベンチマークを作成するための実用的な洞察を提供し、多様なサンプリング、注意深いラベル定義、言語品種間の包括的評価の重要性を強調している。

関連論文リスト

SwissGov-RSD: A Human-annotated, Cross-lingual Benchmark for Token-level Recognition of Semantic Differences Between Related Documents [38.797311337915175]
SwissGov-RSDは、意味的差分認識のための最初の自然な文書レベルの言語間データセットである。英語・ドイツ語・英語・フランス語・英語・イタリア語の複数のパラレル文書が合計224件含まれている。この新しいベンチマークでは,各種オープンソースおよびクローズドソースの大規模言語モデルと,さまざまな微調整設定のエンコーダモデルを評価した。
論文参考訳（メタデータ） (2025-12-08T13:17:27Z)
BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English [8.823927892310238]
BESSTIEは、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情と皮肉の分類のベンチマークである。位置に基づくフィルタリングとトピックに基づくフィルタリングという2つの手法を用いて,これらの言語品種のデータセットを収集する。言語変異のネイティブ話者は、感情ラベルと皮肉ラベルでデータセットを手動で注釈付けする。
論文参考訳（メタデータ） (2024-12-06T02:34:40Z)
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-08-14T23:33:10Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文参考訳（メタデータ） (2023-06-19T14:27:21Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2020-10-13T15:32:00Z)
Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか? 人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文参考訳（メタデータ） (2020-10-07T20:45:14Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)
Leveraging Foreign Language Labeled Data for Aspect-Based Opinion Mining [1.503974529275767]
本稿では,外国語のラベル付きデータを利用したアスペクトベースの意見マイニング手法を提案する。異なる言語におけるアスペクトや意見は異なる単語で表現される可能性があるため、単語埋め込みを用いて提案する。またベトナムのレストランレビューから抽出したアスペクトと感情極性の注釈付きコーパスも導入した。
論文参考訳（メタデータ） (2020-03-15T15:53:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。