論文の概要: SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving
- arxiv url: http://arxiv.org/abs/2603.07865v1
- Date: Mon, 09 Mar 2026 00:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.328379
- Title: SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving
- Title(参考訳): SoundWeaver:テキストからオーディオへの拡散を実現するセマンティックウォームスタート
- Authors: Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai,
- Abstract要約: SoundWeaverは、意味論的に類似したキャッシュオーディオからウォームスタートすることで、テキストとオーディオの拡散を加速する最初のトレーニング不要で、モデルに依存しないサービスシステムである。
現実世界のオーディオトレースでは、SoundWeaverは1.8-3.0$のレイテンシ削減を実現している。
- 参考スコア(独自算出の注目度): 4.28709684346978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0$ \times $ latency reduction with a cache of only ${\sim}$1K entries while preserving or improving perceptual quality.
- Abstract(参考訳): テキストからオーディオへの拡散モデルは高忠実な音声を生成するが、数十の関数評価(NFE)が必要であり、マルチ秒レイテンシとスループットの制限が生じる。
SoundWeaverは、意味論的に類似したキャッシュオーディオからウォームスタートすることで、テキストとオーディオの拡散を加速する最初のトレーニング不要でモデルに依存しないサービスシステムである。
SoundWeaverは3つのコンポーネントを紹介している: セマンティックおよび持続性を考慮したゲーティングを通じてキャッシュされた候補を検索および時間的に整列する参照セレクタ、スキップするNFEの割合を動的に決定するSkip Gater、品質認識と改善を通じてキャッシュユーティリティを維持する軽量キャッシュマネージャ。
現実世界のオーディオトレースでは、SoundWeaverは1.8-3.0$ \times $ latency reductionを達成している。
関連論文リスト
- SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - CHAI: CacHe Attention Inference for text2video [0.14136330551561624]
CHAIは、ビデオ品質を維持しながらレイテンシを低減するために、クロス推論キャッシュを使用することを目指している。
キャッシュアテンション(Cache Attention)は、クロス推論ラテントをまたいだ共有オブジェクト/シーンへの参加を効果的に行う方法として紹介する。
キャッシュアテンション(Cache Attention, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション
論文 参考訳(メタデータ) (2026-02-18T01:53:29Z) - STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs [19.07983030478734]
STACodecは自己教師付き学習(SSL)モデルからの意味情報を残差ベクトル量子化(RVQ-1)の第1層に統合する
本研究では,第1のRVQ層に代入するための意味トークンを直接予測する意味事前蒸留(SPD)モジュールを提案する。
論文 参考訳(メタデータ) (2026-02-05T20:36:24Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation [41.85539404067887]
オーディオ視覚ナビゲーション(AVN)タスクでは、エンボディエージェントは複雑な3D環境において、音源を自律的にローカライズする必要がある。
既存の手法は、しばしば静的なモダリティ融合戦略に依存し、ステレオオーディオに埋め込まれた空間的手がかりを無視する。
本稿では,2つの重要なイノベーションを生かした,エンドツーエンドの強化学習に基づくAVNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-21T05:11:09Z) - MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows [13.130255838403002]
MeanAudioは、1つの機能評価(1-NFE)だけで現実的な音をレンダリングできる高速で忠実なテキスト・オーディオ・ジェネレータである
我々は,MeanAudioが単一ステップ音声生成における最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2025-08-08T07:49:59Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - SoundStorm: Efficient Parallel Audio Generation [27.121920017380273]
本研究では,効率的な非自己回帰音声生成モデルSoundStormを提案する。
SoundStormはAudioLMのセマンティックトークンとして受け取られ、双方向の注意と信頼に基づく並列デコーディングに依存している。
我々は,高品質な自然な対話セグメントを合成することにより,より長いシーケンスに音声生成を拡張できることを実証する。
論文 参考訳(メタデータ) (2023-05-16T17:41:25Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。