論文の概要: Automatic Song Translation for Tonal Languages
- arxiv url: http://arxiv.org/abs/2203.13420v1
- Date: Fri, 25 Mar 2022 02:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 23:07:16.131046
- Title: Automatic Song Translation for Tonal Languages
- Title(参考訳): 声調言語の自動翻訳
- Authors: Fenfei Guo, Chen Zhang, Zhirui Zhang, Qixin He, Kejun Zhang, Jun Xie,
Jordan Boyd-Graber
- Abstract要約: マンダリンの歌詞翻訳のためのベンチマークを開発し,教師なしASTシステムを開発した。
自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
- 参考スコア(独自算出の注目度): 23.08861476320527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops automatic song translation (AST) for tonal languages and
addresses the unique challenge of aligning words' tones with melody of a song
in addition to conveying the original meaning. We propose three criteria for
effective AST -- preserving meaning, singability and intelligibility -- and
design metrics for these criteria. We develop a new benchmark for
English--Mandarin song translation and develop an unsupervised AST system,
Guided AliGnment for Automatic Song Translation (GagaST), which combines
pre-training with three decoding constraints. Both automatic and human
evaluations show GagaST successfully balances semantics and singability.
- Abstract(参考訳): 本稿では,声調言語の自動翻訳(AST)を開発し,本来の意味を伝えることに加えて,歌詞の音調を歌の旋律に合わせるというユニークな課題に対処する。
本稿では,効果的なASTの3つの基準 – 意味の保存,歌唱性,知性 – を提案し,これらの基準を設計する。
マンダリンの歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。
自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
関連論文リスト
- Sing it, Narrate it: Quality Musical Lyrics Translation [0.5735035463793009]
既存の歌の翻訳アプローチは、翻訳品質を犠牲にして、歌いやすさの制約を優先することが多い。
本稿では,重要な歌声機能を維持しつつ,翻訳品質を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-10-29T14:23:56Z) - REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
任意の形態のプレーンテキストドラフトを高品質で本格的な歌詞に編集するための,最初の改訂フレームワークであるREFFLYを紹介する。
提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - Lyrics Transcription for Humans: A Readability-Aware Benchmark [1.2499537119440243]
本稿では、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
ベンチマークには、JamendoLyricsデータセットの完全なリビジョンと、歌詞固有のニュアンスをキャプチャして評価するための評価指標が含まれている。
このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。
論文 参考訳(メタデータ) (2024-07-30T14:20:09Z) - Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark [2.6297569393407416]
本稿では,JamendoLyricsデータセットに基づく新しい歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
まず、ALTの評価に特化して書き起こしの完全な改訂を行った。
第2に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
論文 参考訳(メタデータ) (2023-11-23T13:13:48Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Translate the Beauty in Songs: Jointly Learning to Align Melody and
Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。
これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。
英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-28T03:17:59Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。