論文の概要: Sing it, Narrate it: Quality Musical Lyrics Translation
- arxiv url: http://arxiv.org/abs/2410.22066v1
- Date: Tue, 29 Oct 2024 14:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:36.408442
- Title: Sing it, Narrate it: Quality Musical Lyrics Translation
- Title(参考訳): Sing it, Narrate it: Quality Musical Lyrics Translation (英語)
- Authors: Zhuorui Ye, Jinhan Li, Rongwu Xu,
- Abstract要約: 既存の歌の翻訳アプローチは、翻訳品質を犠牲にして、歌いやすさの制約を優先することが多い。
本稿では,重要な歌声機能を維持しつつ,翻訳品質を向上させることを目的とする。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License:
- Abstract: Translating lyrics for musicals presents unique challenges due to the need to ensure high translation quality while adhering to singability requirements such as length and rhyme. Existing song translation approaches often prioritize these singability constraints at the expense of translation quality, which is crucial for musicals. This paper aims to enhance translation quality while maintaining key singability features. Our method consists of three main components. First, we create a dataset to train reward models for the automatic evaluation of translation quality. Second, to enhance both singability and translation quality, we implement a two-stage training process with filtering techniques. Finally, we introduce an inference-time optimization framework for translating entire songs. Extensive experiments, including both automatic and human evaluations, demonstrate significant improvements over baseline methods and validate the effectiveness of each component in our approach.
- Abstract(参考訳): 音楽の歌詞の翻訳は、長さや韻律などの歌唱性要件に固執しながら高い翻訳品質を確保する必要があるため、独特な課題を呈している。
既存の歌の翻訳アプローチは、音楽にとって重要な翻訳品質を犠牲にして、これらの歌唱性制約を優先することが多い。
本稿では,重要な歌声機能を維持しつつ,翻訳品質を向上させることを目的とする。
本手法は3つの主成分からなる。
まず、翻訳品質の自動評価のための報酬モデルをトレーニングするためのデータセットを作成する。
第2に,歌唱性と翻訳品質の両立を図るため,フィルタリング技術を用いた2段階の学習プロセスを実装した。
最後に,全曲を翻訳する推論時間最適化フレームワークを提案する。
自動評価と人的評価の両方を含む大規模な実験は,ベースライン法よりも大幅に改善され,本手法における各コンポーネントの有効性が検証された。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Songs Across Borders: Singable and Controllable Neural Lyric Translation [17.878364279808604]
本稿では,歌詞翻訳を制約付き翻訳問題に形式化し,歌声品質のギャップを埋める。
我々は,理論指導と実践的手法を翻訳学文献から即時駆動型NMTアプローチに変換する。
我々のモデルは長さの正確さ、韻律の正確さ、単語境界のリコールで99.85%、99.00%、95.52%を達成する。
論文 参考訳(メタデータ) (2023-05-26T10:50:17Z) - Translate the Beauty in Songs: Jointly Learning to Align Melody and
Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。
これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。
英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-28T03:17:59Z) - Automatic Song Translation for Tonal Languages [23.08861476320527]
マンダリンの歌詞翻訳のためのベンチマークを開発し,教師なしASTシステムを開発した。
自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
論文 参考訳(メタデータ) (2022-03-25T02:25:33Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。