論文の概要: The Multilingual Amazon Reviews Corpus
- arxiv url: http://arxiv.org/abs/2010.02573v1
- Date: Tue, 6 Oct 2020 09:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:02:54.254029
- Title: The Multilingual Amazon Reviews Corpus
- Title(参考訳): Amazonの多言語レビューコーパス
- Authors: Phillip Keung, Yichao Lu, Gy\"orgy Szarvas, Noah A. Smith
- Abstract要約: 我々は、多言語テキスト分類のための大規模なAmazonレビューコレクションであるMultilingual Amazon Reviews Corpus (MARC)を提示する。
MARCは2015年から2019年にかけて収集された英語、日本語、ドイツ語、フランス語、スペイン語、中国語のレビューを含んでいる。
コーパスは5つの星のレーティングでバランスが取れており、それぞれのレーティングは各言語のレビューの20%を占めている。
- 参考スコア(独自算出の注目度): 46.84980931183582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Multilingual Amazon Reviews Corpus (MARC), a large-scale
collection of Amazon reviews for multilingual text classification. The corpus
contains reviews in English, Japanese, German, French, Spanish, and Chinese,
which were collected between 2015 and 2019. Each record in the dataset contains
the review text, the review title, the star rating, an anonymized reviewer ID,
an anonymized product ID, and the coarse-grained product category (e.g.,
'books', 'appliances', etc.) The corpus is balanced across the 5 possible star
ratings, so each rating constitutes 20% of the reviews in each language. For
each language, there are 200,000, 5,000, and 5,000 reviews in the training,
development, and test sets, respectively. We report baseline results for
supervised text classification and zero-shot cross-lingual transfer learning by
fine-tuning a multilingual BERT model on reviews data. We propose the use of
mean absolute error (MAE) instead of classification accuracy for this task,
since MAE accounts for the ordinal nature of the ratings.
- Abstract(参考訳): 我々は、多言語テキスト分類のための大規模なAmazonレビューコレクションであるMultilingual Amazon Reviews Corpus (MARC)を提示する。
コーパスには英語、日本語、ドイツ語、フランス語、スペイン語、中国語のレビューが含まれており、2015年から2019年にかけて収集された。
データセットの各レコードは、レビューテキスト、レビュータイトル、スターレーティング、匿名化されたレビューID、匿名化された製品ID、粗粒度製品カテゴリ(例えば、'books'、'appliances'など)を含む。
各言語には、トレーニング、開発、テストセットにそれぞれ20,000、5,000、5,000のレビューがある。
本稿では,教師付きテキスト分類とゼロショット言語間変換学習のためのベースライン結果について報告する。
本研究では,評価の順序的性質をmaeが考慮し,分類精度ではなく平均絶対誤差(mae)を用いることを提案する。
関連論文リスト
- Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Evaluating the Effectiveness of Pre-trained Language Models in
Predicting the Helpfulness of Online Product Reviews [0.21485350418225244]
オンライン製品レビューの有用性を予測するため,RoBERTaとXLM-R言語モデルの比較を行った。
実験にはAmazonレビューデータセットを使用します。
論文 参考訳(メタデータ) (2023-02-19T18:22:59Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - I Wish I Would Have Loved This One, But I Didn't -- A Multilingual
Dataset for Counterfactual Detection in Product Reviews [19.533526638034047]
製品レビューにおいて, 反事実検出(cfd)の問題を考える。
この目的のために、Amazon製品レビューから多言語CFDデータセットをアノテートします。
データセットは、複数の言語で偽造物を含むため、ユニークである。
論文 参考訳(メタデータ) (2021-04-14T14:38:36Z) - Abstractive Opinion Tagging [65.47649273721679]
eコマースでは、意見タグは、アイテムのレビューの特徴を反映したEコマースプラットフォームが提供するタグのランクリストを指す。
意見タグを生成するための現在のメカニズムは、手作業またはラベル付け方法に依存します。
AOT-Net と呼ばれる抽象的な意見タグフレームワークを提案し、多数のレビューからランク付けされた意見タグのリストを生成します。
論文 参考訳(メタデータ) (2021-01-18T05:08:15Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。