論文の概要: K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling
- arxiv url: http://arxiv.org/abs/2309.11093v4
- Date: Sat, 18 May 2024 00:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:30:29.355023
- Title: K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling
- Title(参考訳): K-pop Lyric Translation:データセット,解析,ニューラルモデリング
- Authors: Haven Kim, Jongmin Jung, Dasaem Jeong, Juhan Nam,
- Abstract要約: 約89%がK-popの歌詞から成り立っている。
このデータセットは、韓国語と英語の歌詞を並べて、セクションごとに並べる。
ニューラル・リリック翻訳モデルを構築し,歌唱用リリック翻訳のための専用データセットの重要性を強調する。
- 参考スコア(独自算出の注目度): 7.819710421921816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lyric translation, a field studied for over a century, is now attracting computational linguistics researchers. We identified two limitations in previous studies. Firstly, lyric translation studies have predominantly focused on Western genres and languages, with no previous study centering on K-pop despite its popularity. Second, the field of lyric translation suffers from a lack of publicly available datasets; to the best of our knowledge, no such dataset exists. To broaden the scope of genres and languages in lyric translation studies, we introduce a novel singable lyric translation dataset, approximately 89\% of which consists of K-pop song lyrics. This dataset aligns Korean and English lyrics line-by-line and section-by-section. We leveraged this dataset to unveil unique characteristics of K-pop lyric translation, distinguishing it from other extensively studied genres, and to construct a neural lyric translation model, thereby underscoring the importance of a dedicated dataset for singable lyric translations.
- Abstract(参考訳): 歌詞翻訳は1世紀以上にわたって研究されてきた分野であり、現在では計算言語学の研究者を惹きつけている。
我々は以前の研究で2つの限界を特定した。
第一に、歌詞翻訳の研究は西洋のジャンルや言語に重点を置いており、その人気にもかかわらずK-popを中心にした以前の研究は行われていない。
第二に、歌詞翻訳の分野は、公開データセットの欠如に悩まされており、私たちの知る限り、そのようなデータセットは存在しない。
歌詞翻訳研究におけるジャンルや言語の範囲を広げるために,K-popの歌詞からなる歌詞翻訳データセットを新たに導入する。
このデータセットは、韓国語と英語の歌詞を並べて、セクションごとに並べる。
我々は、このデータセットを利用して、K-pop歌詞翻訳の特徴を明らかにし、他の広く研究されているジャンルと区別し、ニューラル・歌詞翻訳モデルを構築し、歌唱可能な歌詞翻訳のための専用のデータセットの重要性を強調した。
関連論文リスト
- LyCon: Lyrics Reconstruction from the Bag-of-Words Using Large Language Models [1.1510009152620668]
本研究では,公開されているBag-of-Wordsデータセットから著作権のない歌詞を生成する新しい手法を提案する。
我々は、有名なソースからのメタデータと一致した、再構成された歌詞のデータセットLyConをコンパイルし、利用可能にしました。
我々は、ムードアノテーションやジャンルなどのメタデータの統合は、歌詞に関する様々な学術実験を可能にすると信じている。
論文 参考訳(メタデータ) (2024-08-27T03:01:48Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - KpopMT: Translation Dataset with Terminology for Kpop Fandom [5.464669506214195]
専門家翻訳者は韓国の投稿やコメントのために1kの英訳を提供している。
我々は,KpopMT上のGPTモデルを含む既存の翻訳システムを評価し,その故障事例を同定する。
論文 参考訳(メタデータ) (2024-07-10T07:14:51Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - A Computational Evaluation Framework for Singable Lyric Translation [17.492053233802135]
本稿では,音節翻訳の定量的評価のための計算フレームワークを提案する。
音節数距離,音素繰り返し類似度,音楽構造距離,意味類似度を測定した。
我々の枠組みは、音楽的、言語的、文化的側面をシームレスに統合する。
論文 参考訳(メタデータ) (2023-08-26T00:27:08Z) - Translate the Beauty in Songs: Jointly Learning to Align Melody and
Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。
これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。
英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-28T03:17:59Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Analyzing the Use of Character-Level Translation with Sparse and Noisy
Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。
文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。
ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文 参考訳(メタデータ) (2021-09-27T07:35:47Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - CCPM: A Chinese Classical Poetry Matching Dataset [50.90794811956129]
本稿では,詩のマッチングによるモデルの意味的理解を評価するための新しい課題を提案する。
この課題は、現代漢訳の漢詩では、4人の候補者の中から1行の漢詩を選ばなければならない。
このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。
論文 参考訳(メタデータ) (2021-06-03T16:49:03Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。