論文の概要: Evaluating Semantic Fragility in Text-to-Audio Generation Systems Under Controlled Prompt Perturbations
- arxiv url: http://arxiv.org/abs/2603.13824v1
- Date: Sat, 14 Mar 2026 08:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.427495
- Title: Evaluating Semantic Fragility in Text-to-Audio Generation Systems Under Controlled Prompt Perturbations
- Title(参考訳): 制御されたプロンプト摂動下におけるテキスト・ツー・オーディオ生成システムにおける意味的脆弱性の評価
- Authors: Jiahui Wu,
- Abstract要約: 小さな言語的変化は、生成された音声にかなりの変化をもたらし、実用的な使用における信頼性への懸念を引き起こす可能性がある。
制御された即時摂動下でのテキスト・音声システムの意味的不安定性を評価する。
- 参考スコア(独自算出の注目度): 2.2870073664564115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-audio generation enable models to translate natural-language descriptions into diverse musical output. However, the robustness of these systems under semantically equivalent prompt variations remains largely unexplored. Small linguistic changes may lead to substantial variation in generated audio, raising concerns about reliability in practical use. In this study, we evaluate the semantic fragility of text-to-audio systems under controlled prompt perturbations. We selected MusicGen-small, MusicGen-large, and Stable Audio 2.5 as representative models, and we evaluated them under Minimal Lexical Substitution (MLS), Intensity Shifts (IS), and Structural Rephrasing (SR). The proposed dataset contains 75 prompt groups designed to preserve semantic intent while introducing localized linguistic variation. Generated outputs are compared through complementary spectral, temporal, and semantic similarity measures, enabling robustness analysis across multiple representational levels. Experimental results show that larger models achieve improved semantic consistency, with MusicGen-large reaching cosine similarities of 0.77 under MLS and 0.82 under IS. However, acoustic and temporal analyses reveal persistent divergence across all models, even when embedding similarity remains high. These findings indicate that fragility arises primarily during semantic-to-acoustic realization rather than multi-modal embedding alignment. Our study introduces a controlled framework for evaluating robustness in text-to-audio generation and highlights the need for multi-level stability assessment in generative audio systems.
- Abstract(参考訳): 近年のテキスト音声生成の進歩により、自然言語記述を多様な音楽出力に変換することができるようになった。
しかし、意味論的に等価なプロンプト変奏法の下でのこれらのシステムの堅牢性はほとんど未解明のままである。
小さな言語的変化は、生成された音声にかなりの変化をもたらし、実用的な使用における信頼性への懸念を引き起こす可能性がある。
本研究では,制御された即時摂動下でのテキスト・音声システムの意味的脆弱性を評価する。
代表モデルとしてMusicGen-small,MusicGen-large,Stable Audio 2.5を選択し,MLS(Minimum Lexical Substitution),IS(Intensity Shifts),SR(Structuor Rephrasing)を用いて評価した。
提案したデータセットは、局所的な言語変化を導入しながら意味的意図を維持するように設計された75のプロンプト群を含む。
生成した出力は、相補的なスペクトル、時間的、意味的類似度測定によって比較され、複数の表現レベルにわたる堅牢性解析を可能にする。
実験の結果、より大きなモデルでは意味的一貫性が向上し、 MusicGen-large は MLS では 0.77 、IS では 0.82 のコサイン類似性に達した。
しかしながら、音響的および時間的分析は、埋め込み類似性が高いままであっても、すべてのモデルに永続的なばらつきを示す。
これらの結果から,マルチモーダル埋め込みアライメントよりも,主に意味-音響的実現の過程で生じる脆弱性が示唆された。
本研究は,テキスト音声生成におけるロバスト性を評価するための制御フレームワークを導入し,生成音声システムにおけるマルチレベル安定性評価の必要性を強調した。
関連論文リスト
- Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs [15.914430317382077]
音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
論文 参考訳(メタデータ) (2026-03-02T06:21:43Z) - Dynamical Systems Analysis Reveals Functional Regimes in Large Language Models [0.8694591156258423]
大規模言語モデルは高次元内部力学を用いてテキスト生成を行う。
ほとんどの解釈可能性のアプローチは静的表現や因果的介入に重点を置いており、時間構造はほとんど探索されていない。
本稿では,自己回帰生成中のアクティベーション時系列から計算した複合動的計量について論じる。
論文 参考訳(メタデータ) (2026-01-11T21:57:52Z) - High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。