Fugu-MT 論文翻訳(概要): Bob's Confetti: Phonetic Memorization Attacks in Music and Video Generation

論文の概要: Bob's Confetti: Phonetic Memorization Attacks in Music and Video Generation

arxiv url: http://arxiv.org/abs/2507.17937v3
Date: Wed, 29 Oct 2025 17:29:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-30 15:50:43.893734
Title: Bob's Confetti: Phonetic Memorization Attacks in Music and Video Generation
Title（参考訳）: Bob's Confetti:音楽とビデオ生成における音声による記憶攻撃
Authors: Jaechul Roh, Zachary Novack, Yuefeng Peng, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Amir Houmansadr,
Abstract要約: 音楽やビデオのジェネレーティブAIシステムは、著作権のある素材の再生を防ぐためにテキストベースのフィルタを使うことが多い。本稿では,音声の暗記を利用してこれらの安全を回避できる新たな攻撃であるAdversarial PhoneTic Prompting(APT)を紹介する。我々は,SUNOやYUEのようなL2S(Lyrics-to-Song)をリードするモデルが,原曲の原曲に顕著なメロディ的・リズミカルな類似性で再生できることを実証した。
参考スコア（独自算出の注目度）: 47.04195212078377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI systems for music and video commonly use text-based filters to prevent the regurgitation of copyrighted material. We expose a fundamental flaw in this approach by introducing Adversarial PhoneTic Prompting (APT), a novel attack that bypasses these safeguards by exploiting phonetic memorization. The APT attack replaces iconic lyrics with homophonic but semantically unrelated alternatives (e.g., "mom's spaghetti" becomes "Bob's confetti"), preserving acoustic structure while altering meaning; we identify high-fidelity phonetic matches using CMU pronouncing dictionary. We demonstrate that leading Lyrics-to-Song (L2S) models like SUNO and YuE regenerate songs with striking melodic and rhythmic similarity to their copyrighted originals when prompted with these altered lyrics. More surprisingly, this vulnerability extends across modalities. When prompted with phonetically modified lyrics from a song, a Text-to-Video (T2V) model like Veo 3 reconstructs visual scenes from the original music video-including specific settings and character archetypes-despite the absence of any visual cues in the prompt. Our findings reveal that models memorize deep, structural patterns tied to acoustics, not just verbatim text. This phonetic-to-visual leakage represents a critical vulnerability in transcript-conditioned generative models, rendering simple copyright filters ineffective and raising urgent concerns about the secure deployment of multimodal AI systems. Demo examples are available at our project page (https://jrohsc.github.io/music_attack/).
Abstract（参考訳）: 音楽やビデオのジェネレーティブAIシステムは、著作権のある素材の再生を防ぐためにテキストベースのフィルタを使うことが多い。我々は,音声の暗記を利用してこれらの安全を回避できる新たな攻撃であるAdversarial PhoneTic Prompting (APT)を導入することにより,このアプローチの根本的な欠陥を明らかにする。 APT攻撃は、象徴的な歌詞をホモフォニックだが意味的に無関係な代替語(例えば、「ママのスパゲッティ」は「ボブの紙吹奏」となる)に置き換え、意味を変えながら音響構造を保存し、CMU代名詞辞書を用いて高忠実な音声マッチングを識別する。我々は,SUNOやYUEのようなL2S(Lyrics-to-Song)をリードするモデルが,原曲の原曲に顕著なメロディ的・リズミカルな類似性で再生できることを実証した。さらに驚くべきことに、この脆弱性はモダリティにまたがる。 Veo 3のようなテキスト・トゥ・ビデオ(T2V)モデルは、曲の歌詞を音声で修正すると、プロンプトに視覚的な手がかりがないにも関わらず、オリジナルのミュージック・ビデオから特定の設定や文字のアーチタイプを含むビジュアル・シーンを再構築する。以上の結果から, モデルが音声に結びついている深層構造パターンを記憶していることが明らかとなった。この音声から視覚への漏洩は、書き起こし条件付き生成モデルにおいて重要な脆弱性であり、単純な著作権フィルタを非効率にレンダリングし、マルチモーダルAIシステムの安全なデプロイに対する緊急の懸念を提起する。デモの例はプロジェクトのページ(https://jrohsc.github.io/music_ attack/)で公開しています。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。 ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文参考訳（メタデータ） (2025-03-19T06:28:17Z)
Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文参考訳（メタデータ） (2024-06-21T15:19:21Z)
Syllable-level lyrics generation from melody exploiting character-level language model [14.851295355381712]
シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。特に,言語モデルの言語知識を音節レベルのトランスフォーマー生成ネットワークのビームサーチプロセスに組み込む手法を提案する。
論文参考訳（メタデータ） (2023-10-02T02:53:29Z)
Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文参考訳（メタデータ） (2023-05-30T17:20:25Z)
Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文参考訳（メタデータ） (2023-05-12T20:57:20Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。 ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文参考訳（メタデータ） (2022-08-11T08:44:47Z)
Self-supervised Context-aware Style Representation for Expressive Speech Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文参考訳（メタデータ） (2022-06-25T05:29:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。