論文の概要: MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation
- arxiv url: http://arxiv.org/abs/2505.18614v1
- Date: Sat, 24 May 2025 09:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.548264
- Title: MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation
- Title(参考訳): MAVL: アニメーション翻訳のための多言語音声・ビデオ歌詞データセット
- Authors: Woohyun Cho, Youngmin Kim, Sunghyun Lee, Youngjae Yu,
- Abstract要約: 歌声翻訳のためのマルチリンガル・マルチモーダル・ベンチマークであるMAVL(Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation)を紹介する。
本稿では,Syllable-Constrained Audio-Video LLM with Chain-of-Thought SylAVL-CoTを提案する。
実験結果から,SylAVL-CoTはテキストベースモデルよりも歌声性や文脈精度が優れていた。
- 参考スコア(独自算出の注目度): 21.45108062752738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lyrics translation requires both accurate semantic transfer and preservation of musical rhythm, syllabic structure, and poetic style. In animated musicals, the challenge intensifies due to alignment with visual and auditory cues. We introduce Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation (MAVL), the first multilingual, multimodal benchmark for singable lyrics translation. By integrating text, audio, and video, MAVL enables richer and more expressive translations than text-only approaches. Building on this, we propose Syllable-Constrained Audio-Video LLM with Chain-of-Thought SylAVL-CoT, which leverages audio-video cues and enforces syllabic constraints to produce natural-sounding lyrics. Experimental results demonstrate that SylAVL-CoT significantly outperforms text-based models in singability and contextual accuracy, emphasizing the value of multimodal, multilingual approaches for lyrics translation.
- Abstract(参考訳): 歌詞翻訳には正確な意味伝達と音楽リズム、シラバス構造、詩的なスタイルの保存が必要である。
アニメーションミュージカルでは、視覚的および聴覚的手がかりとの整合性により、課題が強化される。
歌声翻訳のためのマルチリンガル・マルチモーダル・ベンチマークであるMAVL(Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation)を紹介する。
テキスト、オーディオ、ビデオを統合することで、MAVLはテキストのみのアプローチよりもリッチで表現力豊かな翻訳を可能にする。
そこで我々は,Syllable-Constrained Audio-Video LLM with Chain-of-Thought SylAVL-CoTを提案する。
実験結果から,SylAVL-CoTは,歌詞翻訳における多モーダル・多言語的アプローチの価値を強調し,歌声性や文脈的精度においてテキストベースモデルよりも有意に優れていた。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Translate the Beauty in Songs: Jointly Learning to Align Melody and
Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。
これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。
英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-28T03:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。