論文の概要: Sampling Strategies for Creation of a Benchmark for Dialectal Sentiment Classification
- arxiv url: http://arxiv.org/abs/2410.11216v1
- Date: Tue, 15 Oct 2024 03:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:48.884156
- Title: Sampling Strategies for Creation of a Benchmark for Dialectal Sentiment Classification
- Title(参考訳): 辞書知覚分類のためのベンチマーク作成のためのサンプリング戦略
- Authors: Dipankar Srirag, Jordan Painter, Aditya Joshi, Diptesh Kanojia,
- Abstract要約: 本稿では,Google Placesレビューの弁証的感情分類のためのベンチマークを作成するためのデータサンプリング戦略について検討する。
位置情報に基づくフィルタリングに基づいて、オーストラリア(オーストラリア英語)、インド(インド英語)、イギリス(イギリス英語)のレビューの自己教師付きデータセットを収集する。
ラベルのセマンティクス、レビュー長、感情の比率に基づくサンプリング手法を採用し、3つの細調整BERTモデル上での性能を報告する。
- 参考スコア(独自算出の注目度): 8.823927892310238
- License:
- Abstract: This paper investigates data sampling strategies to create a benchmark for dialectal sentiment classification of Google Places reviews written in English. Based on location-based filtering, we collect a self-supervised dataset of reviews in Australian (Australian English), Indian (Indian English), and British (British English) English with self-supervised sentiment labels (1-star to 5-star). We employ sampling techniques based on label semantics, review length, and sentiment proportion and report performances on three fine-tuned BERT-based models. Our multi-dialect evaluation provides pointers to challenging scenarios for inner-circle (Australian English and British English) as well as non-native dialects (Indian English) of English, highlighting the need for more diverse benchmarks.
- Abstract(参考訳): 本稿では,Google Placesレビューの弁証的感情分類のためのベンチマークを作成するためのデータサンプリング戦略について検討する。
位置情報に基づくフィルタリングに基づいて、オーストラリア(オーストラリア英語)、インド(インド英語)、イギリス(イギリス英語)のレビューの自己監督されたデータセットを収集する。
ラベルのセマンティクス、レビュー長、感情の比率に基づくサンプリング手法を採用し、3つの細調整BERTモデル上での性能を報告する。
我々の多方言評価は、インナーサークル(オーストラリア英語とイギリス英語)と英語の非ネイティブ方言(インド英語)の挑戦的なシナリオへのポインタを提供し、より多様なベンチマークの必要性を強調します。
関連論文リスト
- Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets [15.46274799809334]
アラビアレベル・オブ・ダイアレクトネス(ALDi)スコアとアノテータのデータセットに関する合意との関係を解析した。
各サンプルの方言の母語話者に対して高いALDiスコアのルーティングサンプルを優先順位付けすることを推奨する。
論文 参考訳(メタデータ) (2024-05-18T12:58:02Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Text sampling strategies for predicting missing bibliographic links [0.0]
本稿では,自動文分類を行う際に,テキストをサンプリングする様々な手法を提案する。
文脈サイズと位置の異なる多くのサンプリング戦略について検討する。
本手法は,応用知的情報システムのレコメンデーションエンジンに使用することができる。
論文 参考訳(メタデータ) (2023-01-04T15:53:50Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Leveraging Foreign Language Labeled Data for Aspect-Based Opinion Mining [1.503974529275767]
本稿では,外国語のラベル付きデータを利用したアスペクトベースの意見マイニング手法を提案する。
異なる言語におけるアスペクトや意見は異なる単語で表現される可能性があるため、単語埋め込みを用いて提案する。
またベトナムのレストランレビューから抽出したアスペクトと感情極性の注釈付きコーパスも導入した。
論文 参考訳(メタデータ) (2020-03-15T15:53:53Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。