論文の概要: Abusive music and song transformation using GenAI and LLMs
- arxiv url: http://arxiv.org/abs/2601.15348v1
- Date: Wed, 21 Jan 2026 02:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.36667
- Title: Abusive music and song transformation using GenAI and LLMs
- Title(参考訳): GenAIとLLMを用いた乱用音楽と歌唱変換
- Authors: Jiyang Choi, Rohitash Chandra,
- Abstract要約: 本研究では,ジェネレーティブ・人工知能(GenAI)とLarge Language Models(LLMs)を用いて,ポピュラー音楽における虐待的言葉(音声配信)や歌詞の内容を自動的に変換する方法について検討する。
選択した4つの英曲とその変換された曲の比較分析を行い、音響および感情に基づくレンズによる変化を評価した。
以上の結果から,Gen-AIは高調波と雑音比,ケプストラルピークプロミネンス,シマーの改善を呈し,声の攻撃性を著しく低下させることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.8271803328378677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Repeated exposure to violence and abusive content in music and song content can influence listeners' emotions and behaviours, potentially normalising aggression or reinforcing harmful stereotypes. In this study, we explore the use of generative artificial intelligence (GenAI) and Large Language Models (LLMs) to automatically transform abusive words (vocal delivery) and lyrical content in popular music. Rather than simply muting or replacing a single word, our approach transforms the tone, intensity, and sentiment, thus not altering just the lyrics, but how it is expressed. We present a comparative analysis of four selected English songs and their transformed counterparts, evaluating changes through both acoustic and sentiment-based lenses. Our findings indicate that Gen-AI significantly reduces vocal aggressiveness, with acoustic analysis showing improvements in Harmonic to Noise Ratio, Cepstral Peak Prominence, and Shimmer. Sentiment analysis reduced aggression by 63.3-85.6\% across artists, with major improvements in chorus sections (up to 88.6\% reduction). The transformed versions maintained musical coherence while mitigating harmful content, offering a promising alternative to traditional content moderation that avoids triggering the "forbidden fruit" effect, where the censored content becomes more appealing simply because it is restricted. This approach demonstrates the potential for GenAI to create safer listening experiences while preserving artistic expression.
- Abstract(参考訳): 音楽や歌のコンテンツにおける暴力や乱暴な内容への繰り返しの暴露は、聴取者の感情や行動に影響を与え、攻撃性の正常化や有害なステレオタイプを補強する可能性がある。
本研究では,ジェネレーティブ・人工知能(GenAI)とLarge Language Models(LLMs)を用いて,ポピュラー音楽における乱用語(音声配信)と歌詞コンテンツを自動的に変換する方法について検討する。
一つの単語をミュートしたり置き換えたりするのではなく、私たちのアプローチはトーン、強さ、感情を変えて、歌詞だけを変えるのではなく、どのように表現するかを変えます。
選択した4つの英曲とその変換された曲の比較分析を行い、音響および感情に基づくレンズによる変化を評価した。
以上の結果から,Gen-AIは高調波と雑音比,ケプストラルピークプロミネンス,シマーの改善を呈し,声の攻撃性を著しく低下させることが明らかとなった。
感性分析により、アーティスト全体で63.3-85.6\%の攻撃性が減少し、コーラスセクションが大きく改善された(最大88.6\%)。
トランスフォーメーションされたバージョンは、有害なコンテンツを緩和しながら音楽のコヒーレンスを維持し、従来のコンテンツモデレーションに代わる有望な代替手段を提供する。
このアプローチは、芸術的表現を保ちながら、より安全な聴取体験を創出する可能性を実証する。
関連論文リスト
- Language models for longitudinal analysis of abusive content in Billboard Music Charts [3.2654923574107357]
我々は過去70年間、アメリカのBillboard Chartsから歌(歌詞)を分析してきた。
その結果、1990年以降のポピュラー音楽における明確な内容の顕著な増加が示されている。
プロファン、性的に明示的で、そうでなければ不適切な言語を含む歌詞を持つ歌の流行が高まる。
論文 参考訳(メタデータ) (2025-10-06T01:59:21Z) - Bob's Confetti: Phonetic Memorization Attacks in Music and Video Generation [47.04195212078377]
音楽やビデオのジェネレーティブAIシステムは、著作権のある素材の再生を防ぐためにテキストベースのフィルタを使うことが多い。
本稿では,音声の暗記を利用してこれらの安全を回避できる新たな攻撃であるAdversarial PhoneTic Prompting(APT)を紹介する。
我々は,SUNOやYUEのようなL2S(Lyrics-to-Song)をリードするモデルが,原曲の原曲に顕著なメロディ的・リズミカルな類似性で再生できることを実証した。
論文 参考訳(メタデータ) (2025-07-23T21:11:47Z) - Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation [59.81482518924723]
そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。
我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。
提案手法の有効性を実験・解析により検証した。
論文 参考訳(メタデータ) (2024-09-29T01:02:01Z) - Joint sentiment analysis of lyrics and audio in music [1.2349562761400057]
自動分析では、実際の音声データは通常分析されるが、歌詞は気分の知覚において重要な役割を果たす。
我々はまず、歌詞と音声に基づいて感情分析の様々なモデルを評価する。それに対応するアプローチは、すでに満足できる結果を示しているが、弱みも示している。
論文 参考訳(メタデータ) (2024-05-03T10:42:17Z) - Are Words Enough? On the semantic conditioning of affective music
generation [1.534667887016089]
このスコーピングレビューは、感情によって条件付けられた音楽生成の可能性を分析し、議論することを目的としている。
本稿では,ルールベースモデルと機械学習モデルという,自動音楽生成において採用される2つの主要なパラダイムについて概観する。
音楽を通して感情を表現する言葉の限界とあいまいさを克服することは、創造産業に影響を及ぼす可能性があると結論付けている。
論文 参考訳(メタデータ) (2023-11-07T00:19:09Z) - REMAST: Real-time Emotion-based Music Arrangement with Soft Transition [29.34094293561448]
感情的な介入媒体としての音楽は、音楽療法、ゲーム、映画などのシナリオに重要な応用がある。
感情のリアルタイム適合とスムーズな遷移を同時に達成するためのREMASTを提案する。
評価結果によると,REMASTは客観的および主観的指標において最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-05-14T00:09:48Z) - Affective Idiosyncratic Responses to Music [63.969810774018775]
本研究では,中国社会音楽プラットフォーム上での403万以上のリスナーコメントから,音楽に対する感情応答を測定する手法を開発した。
我々は,聴取者の感情反応を促進する音楽的,歌詞的,文脈的,人口動態的,精神的健康的効果をテストした。
論文 参考訳(メタデータ) (2022-10-17T19:57:46Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。