論文の概要: LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS
- arxiv url: http://arxiv.org/abs/2306.01325v1
- Date: Fri, 2 Jun 2023 07:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:25:12.496564
- Title: LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS
- Title(参考訳): LyricSIM: スペイン語歌詞の類似度検出のための新しいデータセットとベンチマーク
- Authors: Alejandro Benito-Santos, Adri\'an Ghajari, Pedro Hern\'andez, V\'ictor
Fresno, Salvador Ros, Elena Gonz\'alez-Blanco
- Abstract要約: 歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
- 参考スコア(独自算出の注目度): 52.77024349608834
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present a new dataset and benchmark tailored to the task of
semantic similarity in song lyrics. Our dataset, originally consisting of 2775
pairs of Spanish songs, was annotated in a collective annotation experiment by
63 native annotators. After collecting and refining the data to ensure a high
degree of consensus and data integrity, we obtained 676 high-quality annotated
pairs that were used to evaluate the performance of various state-of-the-art
monolingual and multilingual language models. Consequently, we established
baseline results that we hope will be useful to the community in all future
academic and industrial applications conducted in this context.
- Abstract(参考訳): 本稿では,歌の歌詞における意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
高いコンセンサスとデータの完全性を確保するためにデータの収集と精錬を行った後、様々な最先端のモノリンガルおよび多言語言語モデルの性能を評価するために、676の高品質の注釈付きペアを得た。
その結果,この文脈で実施される将来的な学術・産業分野のあらゆる分野において,コミュニティにとって有用な基盤となる成果が得られた。
関連論文リスト
- Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - BabelEnconding at SemEval-2020 Task 3: Contextual Similarity as a
Combination of Multilingualism and Language Models [0.5276232626689568]
本稿では,SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity (BabelEnconding) to SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity。
論文 参考訳(メタデータ) (2020-08-19T13:46:37Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。