論文の概要: Croatian Film Review Dataset (Cro-FiReDa): A Sentiment Annotated Dataset
of Film Reviews
- arxiv url: http://arxiv.org/abs/2305.08173v1
- Date: Sun, 14 May 2023 14:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 17:05:31.850938
- Title: Croatian Film Review Dataset (Cro-FiReDa): A Sentiment Annotated Dataset
of Film Reviews
- Title(参考訳): クロアチア映画レビューデータセット (cro-fireda: a sentiment annotated dataset of film reviews)
- Authors: Gaurish Thakkar, Nives Mikelic Preradovic and Marko Tadi\'c
- Abstract要約: 本稿では,映画レビュー分野におけるクロアチア人のための感情アノテートデータセットであるCro-FiReDaを紹介する。
1万以上の文を含むデータセットは、文レベルで注釈付けされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Cro-FiReDa, a sentiment- annotated dataset for Croatian
in the domain of movie reviews. The dataset, which contains over 10,000
sentences, has been annotated at the sentence level. In addition to presenting
the overall annotation process, we also present benchmark results based on the
transformer- based fine-tuning approach
- Abstract(参考訳): 本稿では,映画レビュー分野におけるクロアチア人の感情アノテートデータセットであるCro-FiReDaを紹介する。
1万以上の文を含むデータセットは、文レベルで注釈付けされている。
アノテーション全体のプロセスを示すことに加えて、トランスフォーマティブに基づく微調整手法に基づくベンチマーク結果も提示する。
関連論文リスト
- CroSentiNews 2.0: A Sentence-Level News Sentiment Corpus [0.0]
本稿では,クロアチアのニュースドメインを対象とした文レベルの感情データセットを提案する。
すでに存在する3Kアノテートテキストに加えて、我々のデータセットは5つのクラスでタグ付けされた14.5Kアノテート文を含む。
論文 参考訳(メタデータ) (2023-05-14T15:53:54Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Czech News Dataset for Semantic Textual Similarity [0.0]
本稿では,意味的類似性アノテーションを用いた文からなる新しいデータセットについて述べる。
このデータは、チェコ語におけるジャーナリストの領域に由来する。
データセットには、138,556人のアノテーションが列車とテストセットに分割されている。
論文 参考訳(メタデータ) (2021-08-19T14:20:17Z) - SummScreen: A Dataset for Abstractive Screenplay Summarization [52.56760815805357]
SummScreenは、テレビシリーズトランスクリプトと人間の書かれたリキャップのペアで構成されたデータセットです。
プロットの詳細はしばしば文字対話で間接的に表現され、書き起こしの全体にわたって散らばることがある。
キャラクタはテレビシリーズの基本であるため,2つのエンティティ中心評価指標も提案する。
論文 参考訳(メタデータ) (2021-04-14T19:37:40Z) - The Multilingual Amazon Reviews Corpus [46.84980931183582]
我々は、多言語テキスト分類のための大規模なAmazonレビューコレクションであるMultilingual Amazon Reviews Corpus (MARC)を提示する。
MARCは2015年から2019年にかけて収集された英語、日本語、ドイツ語、フランス語、スペイン語、中国語のレビューを含んでいる。
コーパスは5つの星のレーティングでバランスが取れており、それぞれのレーティングは各言語のレビューの20%を占めている。
論文 参考訳(メタデータ) (2020-10-06T09:34:01Z) - A Parallel Evaluation Data Set of Software Documentation with Document
Structure Annotation [0.0]
データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語からなる。
我々は、データセットの起源と生成、特異性、特徴、および機械翻訳結果に関する洞察を提供する。
論文 参考訳(メタデータ) (2020-08-11T06:50:23Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。