論文の概要: Synthetic Lyrics Detection Across Languages and Genres
- arxiv url: http://arxiv.org/abs/2406.15231v4
- Date: Thu, 24 Apr 2025 07:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 16:37:10.503952
- Title: Synthetic Lyrics Detection Across Languages and Genres
- Title(参考訳): 言語と遺伝子間の合成歌詞検出
- Authors: Yanis Labrak, Markus Frohmann, Gabriel Meseguer-Brocal, Elena V. Epure,
- Abstract要約: 音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
- 参考スコア(独自算出の注目度): 4.987546582439803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, the use of large language models (LLMs) to generate music content, particularly lyrics, has gained in popularity. These advances provide valuable tools for artists and enhance their creative processes, but they also raise concerns about copyright violations, consumer satisfaction, and content spamming. Previous research has explored content detection in various domains. However, no work has focused on the text modality, lyrics, in music. To address this gap, we curated a diverse dataset of real and synthetic lyrics from multiple languages, music genres, and artists. The generation pipeline was validated using both humans and automated methods. We performed a thorough evaluation of existing synthetic text detection approaches on lyrics, a previously unexplored data type. We also investigated methods to adapt the best-performing features to lyrics through unsupervised domain adaptation. Following both music and industrial constraints, we examined how well these approaches generalize across languages, scale with data availability, handle multilingual language content, and perform on novel genres in few-shot settings. Our findings show promising results that could inform policy decisions around AI-generated music and enhance transparency for users.
- Abstract(参考訳): 近年,大規模な言語モデル(LLM)による音楽コンテンツ,特に歌詞の生成が人気を博している。
これらの進歩は、アーティストにとって貴重なツールを提供し、創造的なプロセスを強化するだけでなく、著作権侵害、消費者満足度、コンテンツスパムに対する懸念も引き起こす。
これまでの研究では、様々な領域におけるコンテンツ検出が研究されている。
しかし、音楽におけるモダリティ、歌詞に焦点を絞った作品はない。
このギャップに対処するため、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
生成パイプラインは人間と自動化された方法の両方を用いて検証された。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
また,教師なしドメイン適応を用いて,最高の演奏特徴を歌詞に適応させる手法についても検討した。
音楽と産業の両方の制約に従えば、これらのアプローチが言語全体にわたっていかに一般化され、データの可用性とともにスケールし、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
我々の研究結果は、AI生成音楽に関する政策決定を通知し、ユーザーの透明性を高める有望な結果を示している。
関連論文リスト
- Multi-label Cross-lingual automatic music genre classification from lyrics with Sentence BERT [0.13654846342364302]
本稿では sBERT が生成した多言語文の埋め込みに基づく多言語ジャンル分類システムを提案する。
重なり合う8つのジャンルを持つバイリンガル・ポルトガル語・英語のデータセットを用いて、ある言語で歌詞を訓練し、別の言語でジャンルを予測する能力を示す。
論文 参考訳(メタデータ) (2025-01-07T13:22:35Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - LyCon: Lyrics Reconstruction from the Bag-of-Words Using Large Language Models [1.1510009152620668]
本研究では,公開されているBag-of-Wordsデータセットから著作権のない歌詞を生成する新しい手法を提案する。
我々は、有名なソースからのメタデータと一致した、再構成された歌詞のデータセットLyConをコンパイルし、利用可能にしました。
我々は、ムードアノテーションやジャンルなどのメタデータの統合は、歌詞に関する様々な学術実験を可能にすると信じている。
論文 参考訳(メタデータ) (2024-08-27T03:01:48Z) - Multi-task Prompt Words Learning for Social Media Content Generation [8.209163857435273]
マルチモーダル情報融合に基づく新しい単語生成フレームワークを提案する。
一連のプロンプト単語を含むテンプレートを用いて、ChatGPTを誘導し、高品質なツイートを生成する。
コンテンツ生成分野における効果的な客観的評価基準がない場合には、ChatGPTツールを用いてアルゴリズムが生成した結果を評価する。
論文 参考訳(メタデータ) (2024-07-10T15:46:32Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-04-07T09:15:46Z) - Youling: an AI-Assisted Lyrics Creation System [72.00418962906083]
本稿では,AIによる歌詞作成システムである textitYouling について紹介する。
歌詞生成プロセスでは、textitYoulingは従来の1パスのフルテキスト生成モードとインタラクティブな生成モードをサポートする。
システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。
論文 参考訳(メタデータ) (2022-01-18T03:57:04Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A General Framework for Learning Prosodic-Enhanced Representation of Rap
Lyrics [21.944835086749375]
ラップ歌詞の学習と分析は、多くのWebアプリケーションにとって重要な基礎です。
階層型注目変動オートエンコーダフレームワーク(HAVAE)を提案する。
様々な特徴を適切に統合し,韻律強調表現を生成する特徴集約戦略を提案する。
論文 参考訳(メタデータ) (2021-03-23T15:13:21Z) - A Comprehensive Survey on Deep Music Generation: Multi-level
Representations, Algorithms, Evaluations, and Future Directions [10.179835761549471]
本稿では,深層学習を用いた音楽生成レベルの違いによる様々な作曲課題の概要について述べる。
さらに,多様なタスクに適したデータセットを要約し,音楽表現,評価方法,および異なるレベルの課題について考察し,最後にいくつかの今後の方向性を指摘する。
論文 参考訳(メタデータ) (2020-11-13T08:01:20Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。