論文の概要: Automatic Song Translation for Tonal Languages
- arxiv url: http://arxiv.org/abs/2203.13420v1
- Date: Fri, 25 Mar 2022 02:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 23:07:16.131046
- Title: Automatic Song Translation for Tonal Languages
- Title(参考訳): 声調言語の自動翻訳
- Authors: Fenfei Guo, Chen Zhang, Zhirui Zhang, Qixin He, Kejun Zhang, Jun Xie,
Jordan Boyd-Graber
- Abstract要約: マンダリンの歌詞翻訳のためのベンチマークを開発し,教師なしASTシステムを開発した。
自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
- 参考スコア(独自算出の注目度): 23.08861476320527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops automatic song translation (AST) for tonal languages and
addresses the unique challenge of aligning words' tones with melody of a song
in addition to conveying the original meaning. We propose three criteria for
effective AST -- preserving meaning, singability and intelligibility -- and
design metrics for these criteria. We develop a new benchmark for
English--Mandarin song translation and develop an unsupervised AST system,
Guided AliGnment for Automatic Song Translation (GagaST), which combines
pre-training with three decoding constraints. Both automatic and human
evaluations show GagaST successfully balances semantics and singability.
- Abstract(参考訳): 本稿では,声調言語の自動翻訳(AST)を開発し,本来の意味を伝えることに加えて,歌詞の音調を歌の旋律に合わせるというユニークな課題に対処する。
本稿では,効果的なASTの3つの基準 – 意味の保存,歌唱性,知性 – を提案し,これらの基準を設計する。
マンダリンの歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。
自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
関連論文リスト
- Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark [2.6297569393407416]
本稿では,JamendoLyricsデータセットに基づく新しい歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
まず、ALTの評価に特化して書き起こしの完全な改訂を行った。
第2に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
論文 参考訳(メタデータ) (2023-11-23T13:13:48Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by
Whispering to ChatGPT [70.75170078517284]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Translate the Beauty in Songs: Jointly Learning to Align Melody and
Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。
これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。
英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-28T03:17:59Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Automatic Lyrics Transcription using Dilated Convolutional Neural
Networks with Self-Attention [11.232541198648159]
モノフォニックカラオケ記録における自己注意による畳み込み時間遅延ニューラルネットワークの訓練を行った。
本システムでは,歌詞の自動書き起こしにおける最先端の大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-07-13T16:36:30Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Speech-to-Singing Conversion in an Encoder-Decoder Framework [38.111942306157545]
我々は,話し言葉を歌声に変換する問題に対して,学習に基づくアプローチを採っている。
話者の言語内容と音色を保存する歌を合成できるエンコーディングを学習する。
論文 参考訳(メタデータ) (2020-02-16T15:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。