論文の概要: CroSentiNews 2.0: A Sentence-Level News Sentiment Corpus
- arxiv url: http://arxiv.org/abs/2305.08187v1
- Date: Sun, 14 May 2023 15:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 17:06:14.366306
- Title: CroSentiNews 2.0: A Sentence-Level News Sentiment Corpus
- Title(参考訳): crosentinews 2.0: 文レベルのニュース感情コーパス
- Authors: Gaurish Thakkar, Nives Mikelic Preradovi\'c, Marko Tadi\'c
- Abstract要約: 本稿では,クロアチアのニュースドメインを対象とした文レベルの感情データセットを提案する。
すでに存在する3Kアノテートテキストに加えて、我々のデータセットは5つのクラスでタグ付けされた14.5Kアノテート文を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a sentence-level sentiment dataset for the Croatian
news domain. In addition to the 3K annotated texts already present, our dataset
contains 14.5K annotated sentence occurrences that have been tagged with 5
classes. We provide baseline scores in addition to the annotation process and
inter-annotator agreement.
- Abstract(参考訳): 本稿ではクロアチアのニュースドメインの文レベルの感情データセットについて述べる。
すでに存在する3Kアノテートテキストに加えて、5つのクラスでタグ付けされた14.5Kアノテート文がデータセットに含まれる。
アノテーションプロセスとアノテーション間の合意に加えて,ベースラインスコアを提供する。
関連論文リスト
- L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi [0.4194295877935868]
L3Cube-MahaNewsは,ニュースの見出しや記事に焦点をあてたマラタイ語テキスト分類コーパスである。
このコーパスは最大規模のマラーティコーパスであり、1.05L以上の記録を12のカテゴリに分類している。
異なる文書の長さに対応するため、MahaNewsは短文、長文、中段落用に特別に設計された3つの教師付きデータセットで構成されている。
論文 参考訳(メタデータ) (2024-04-28T15:20:45Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - Croatian Film Review Dataset (Cro-FiReDa): A Sentiment Annotated Dataset
of Film Reviews [0.0]
本稿では,映画レビュー分野におけるクロアチア人のための感情アノテートデータセットであるCro-FiReDaを紹介する。
1万以上の文を含むデータセットは、文レベルで注釈付けされている。
論文 参考訳(メタデータ) (2023-05-14T14:46:12Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Czech News Dataset for Semantic Textual Similarity [0.0]
本稿では,意味的類似性アノテーションを用いた文からなる新しいデータセットについて述べる。
このデータは、チェコ語におけるジャーナリストの領域に由来する。
データセットには、138,556人のアノテーションが列車とテストセットに分割されている。
論文 参考訳(メタデータ) (2021-08-19T14:20:17Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - hinglishNorm -- A Corpus of Hindi-English Code Mixed Sentences for Text
Normalization [9.140423191799423]
HinglishNormは、Hindi- English code-mixed sentencesの人間の注釈付きコーパスで、テキスト正規化タスクを行う。
We obtained a Word Error Rate (WER) of 15.55, biLingual Evaluation Understudy (BLEU) score of 71.2, and Metric for Evaluation of Translation with Explicit ordering (METEOR) score of 0.50。
論文 参考訳(メタデータ) (2020-10-18T12:21:37Z) - MLQE-PE: A Multilingual Quality Estimation and Post-Editing Dataset [49.602565530704005]
データセットには11の言語ペアが含まれており、人間のラベルは1つの言語ペアに1万の翻訳が可能である。
また、後編集された文章や、文章が抽出された記事のタイトルや、テキストの翻訳に使用されるニューラルMTモデルも含んでいる。
論文 参考訳(メタデータ) (2020-10-09T10:12:02Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - The Annotation Guideline of LST20 Corpus [0.3161954199291541]
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
論文 参考訳(メタデータ) (2020-08-12T01:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。