Fugu-MT 論文翻訳(概要): LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

論文の概要: LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

arxiv url: http://arxiv.org/abs/2306.17103v1
Date: Thu, 29 Jun 2023 17:01:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 12:30:54.329009
Title: LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT
Title（参考訳）: LyricWhiz: ChatGPTへのWhisperingによるロバストな多言語ゼロショット歌詞の転写
Authors: Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenhu Chen, Wei Xue, Yike Guo
Abstract要約: リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
参考スコア（独自算出の注目度）: 61.3790033203169
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.
Abstract（参考訳）: LyricWhizは,岩や金属といった難易度の高いジャンルであっても,様々な歌詞の書き起こしデータセットに対して最先端のパフォーマンスを実現する,頑健で多言語的,ゼロショットの自動書き起こし方式である。本稿では,弱教師付き頑健な音声認識モデルであるWhisperと,今日のチャットベース大規模言語モデルであるGPT-4を利用する。提案手法では,音声の書き起こしによって「耳」として,gpt-4は「脳」として機能し,文脈的出力選択と修正のための強力な性能を持つ注釈器として機能する。実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低減し,複数の言語で効率的に歌詞を転写できることがわかった。さらに,LyricWhiz を用いて,MTG-Jamendo に基づく CC-BY-NC-SA 著作権ライセンスによる,初めて公開された大規模多言語文字起こしデータセットを作成し,騒音レベルの推定と評価を行う。提案手法とデータセットは,多言語による歌詞の書き起こし,難易度の高いタスクの開発を推し進めることが期待できる。

関連論文リスト

MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation [21.45108062752738]
歌声翻訳のためのマルチリンガル・マルチモーダル・ベンチマークであるMAVL(Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation)を紹介する。本稿では,Syllable-Constrained Audio-Video LLM with Chain-of-Thought SylAVL-CoTを提案する。実験結果から,SylAVL-CoTはテキストベースモデルよりも歌声性や文脈精度が優れていた。
論文参考訳（メタデータ） (2025-05-24T09:28:09Z)
Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。複数の実験で10%以上の絶対WER削減を達成した。
論文参考訳（メタデータ） (2024-08-10T13:39:13Z)
Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文参考訳（メタデータ） (2024-06-21T15:19:21Z)
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark [2.6297569393407416]
本稿では,JamendoLyricsデータセットに基づく新しい歌詞の書き起こしベンチマークであるJam-ALTを紹介する。まず、ALTの評価に特化して書き起こしの完全な改訂を行った。第2に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
論文参考訳（メタデータ） (2023-11-23T13:13:48Z)
Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文参考訳（メタデータ） (2023-07-13T21:06:23Z)
A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription [11.951441023641975]
本稿では,歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける方法を提案する。本手法は, 歌唱文の書き起こし性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調している。
論文参考訳（メタデータ） (2023-04-12T15:36:01Z)
Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文参考訳（メタデータ） (2023-03-28T03:17:59Z)
Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文参考訳（メタデータ） (2022-12-04T18:09:23Z)
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-27T11:24:40Z)
Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文参考訳（メタデータ） (2022-04-07T09:15:46Z)
Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。本手法は3つの主流データセットで検証する。
論文参考訳（メタデータ） (2020-09-21T10:10:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。