Fugu-MT 論文翻訳(概要): Automatic Song Translation for Tonal Languages

論文の概要: Automatic Song Translation for Tonal Languages

arxiv url: http://arxiv.org/abs/2203.13420v1
Date: Fri, 25 Mar 2022 02:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-28 23:07:16.131046
Title: Automatic Song Translation for Tonal Languages
Title（参考訳）: 声調言語の自動翻訳
Authors: Fenfei Guo, Chen Zhang, Zhirui Zhang, Qixin He, Kejun Zhang, Jun Xie, Jordan Boyd-Graber
Abstract要約: マンダリンの歌詞翻訳のためのベンチマークを開発し,教師なしASTシステムを開発した。自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。
参考スコア（独自算出の注目度）: 23.08861476320527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper develops automatic song translation (AST) for tonal languages and addresses the unique challenge of aligning words' tones with melody of a song in addition to conveying the original meaning. We propose three criteria for effective AST -- preserving meaning, singability and intelligibility -- and design metrics for these criteria. We develop a new benchmark for English--Mandarin song translation and develop an unsupervised AST system, Guided AliGnment for Automatic Song Translation (GagaST), which combines pre-training with three decoding constraints. Both automatic and human evaluations show GagaST successfully balances semantics and singability.
Abstract（参考訳）: 本稿では,声調言語の自動翻訳(AST)を開発し,本来の意味を伝えることに加えて,歌詞の音調を歌の旋律に合わせるというユニークな課題に対処する。本稿では,効果的なASTの3つの基準 – 意味の保存,歌唱性,知性 – を提案し,これらの基準を設計する。マンダリンの歌詞翻訳のための新しいベンチマークを開発し,事前学習と3つの復号制約を組み合わせた教師なしASTシステムであるガイド付きAliGnment for Automatic Song Translation (GagaST)を開発した。自動評価と人的評価の両方で、GagaSTはセマンティクスと歌声のバランスをとることに成功した。

関連論文リスト

InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems [48.42417538526542]
テキスト音声システムは、固定されたスタイルのラベルに依存したり、これらのキューを制御するために音声プロンプトを挿入する。近年の試みでは、パラ言語的特徴を修飾する自然言語命令の活用が試みられている。 InstructTTSEvalは、複雑な自然言語スタイル制御の能力を測定するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-19T15:08:01Z)
Aligned Music Notation and Lyrics Transcription [8.411893399638046]
本稿では,Aligned Music Notation and Lyrics Transcription (AMNLT) の課題を紹介する。音楽記号、歌詞、それらの同期を共同で検討することで、声楽の完全な書き起こしに対処する。我々は、音楽と歌詞を別々に扱う従来の分詞法から、新しいエンドツーエンドソリューションまで、この課題に対処するための様々なアプローチを評価する。
論文参考訳（メタデータ） (2024-12-05T14:50:11Z)
Sing it, Narrate it: Quality Musical Lyrics Translation [0.5735035463793009]
既存の歌の翻訳アプローチは、翻訳品質を犠牲にして、歌いやすさの制約を優先することが多い。本稿では,重要な歌声機能を維持しつつ,翻訳品質を向上させることを目的とする。
論文参考訳（メタデータ） (2024-10-29T14:23:56Z)
REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
任意の形態のプレーンテキストドラフトを高品質で本格的な歌詞に編集するための,最初の改訂フレームワークであるREFFLYを紹介する。提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
論文参考訳（メタデータ） (2024-08-30T23:22:34Z)
Lyrics Transcription for Humans: A Readability-Aware Benchmark [1.2499537119440243]
本稿では、包括的な歌詞の書き起こしベンチマークであるJam-ALTを紹介する。ベンチマークには、JamendoLyricsデータセットの完全なリビジョンと、歌詞固有のニュアンスをキャプチャして評価するための評価指標が含まれている。このベンチマークを最近の書き起こしシステムに適用し、さらにエラー解析を行い、古典的な音楽データセットと実験的な比較を行った。
論文参考訳（メタデータ） (2024-07-30T14:20:09Z)
SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。 3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。 SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark [2.6297569393407416]
本稿では,JamendoLyricsデータセットに基づく新しい歌詞の書き起こしベンチマークであるJam-ALTを紹介する。まず、ALTの評価に特化して書き起こしの完全な改訂を行った。第2に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
論文参考訳（メタデータ） (2023-11-23T13:13:48Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)
LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文参考訳（メタデータ） (2023-06-29T17:01:51Z)
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-05-08T06:02:10Z)
Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文参考訳（メタデータ） (2023-03-28T03:17:59Z)
Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文参考訳（メタデータ） (2020-10-28T02:35:40Z)
Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文参考訳（メタデータ） (2020-04-28T05:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。