論文の概要: AudioMoG: Guiding Audio Generation with Mixture-of-Guidance
- arxiv url: http://arxiv.org/abs/2509.23727v1
- Date: Sun, 28 Sep 2025 08:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.403502
- Title: AudioMoG: Guiding Audio Generation with Mixture-of-Guidance
- Title(参考訳): AudioMoG:Mixture-of-Guidanceによるオーディオ生成の誘導
- Authors: Junyou Wang, Zehua Chen, Binjie Yuan, Kaiwen Zheng, Chang Li, Yuxuan Jiang, Jun Zhu,
- Abstract要約: 本稿ではオーディオ生成のための混合誘導フレームワークであるAudioMoGを紹介する。
デザインの世界では、AudioMoGは独特の指針原理の相補的な利点を利用することができる。
推定速度が同じである場合、AudioMoGアプローチはT2A生成における単一のガイダンスを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 33.368423546997796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guidance methods have demonstrated significant improvements in cross-modal audio generation, including text-to-audio (T2A) and video-to-audio (V2A) generation. The popularly adopted method, classifier-free guidance (CFG), steers generation by emphasizing condition alignment, enhancing fidelity but often at the cost of diversity. Recently, autoguidance (AG) has been explored for audio generation, encouraging the sampling to faithfully reconstruct the target distribution and showing increased diversity. Despite these advances, they usually rely on a single guiding principle, e.g., condition alignment in CFG or score accuracy in AG, leaving the full potential of guidance for audio generation untapped. In this work, we explore enriching the composition of the guidance method and present a mixture-of-guidance framework, AudioMoG. Within the design space, AudioMoG can exploit the complementary advantages of distinctive guiding principles by fulfilling their cumulative benefits. With a reduced form, AudioMoG can consider parallel complements or recover a single guiding principle, without sacrificing generality. We experimentally show that, given the same inference speed, AudioMoG approach consistently outperforms single guidance in T2A generation across sampling steps, concurrently showing advantages in V2A, text-to-music, and image generation. These results highlight a "free lunch" in current cross-modal audio generation systems: higher quality can be achieved through mixed guiding principles at the sampling stage without sacrificing inference efficiency. Demo samples are available at: https://audio-mog.github.io.
- Abstract(参考訳): ガイダンス手法は、テキスト・トゥ・オーディオ(T2A)やビデオ・トゥ・オーディオ(V2A)生成など、モーダル間オーディオ生成において大幅に改善されている。
一般に採用されている分類器フリーガイダンス(CFG)は、条件アライメントを強調し、忠実度を高めるが、多様性の犠牲になることが多い。
近年,音声生成のための自動誘導法 (AG) が検討され, 対象の分布を忠実に再構築し, 多様性の向上を図っている。
これらの進歩にもかかわらず、彼らは通常、CFGの条件アライメントやAGのスコア精度といった単一の指針原理に頼っており、オーディオ生成のためのガイダンスの可能性を未然に残している。
本研究では,誘導法の構成を充実させ,混合誘導フレームワークであるAudioMoGを提案する。
デザイン空間内では、AudioMoGは、その累積的な利点を満たすことによって、特有の指針原則の相補的な利点を利用することができる。
形式を縮小したAudioMoGは、汎用性を犠牲にすることなく、並列補完や単一の指針原理の回復を考慮できる。
我々は,同じ推論速度を考慮に入れたAudioMoGアプローチが,サンプリングステップ間でT2A生成の単一ガイダンスを一貫して上回り,V2A,テキスト・ツー・ミュージック,画像生成の優位性を同時に示すことを示した。
これらの結果は、現在のクロスモーダル音声生成システムにおける「フリーランチ」を強調しており、推論効率を犠牲にすることなくサンプリング段階での混合誘導原理により、より高い品質を実現することができる。
デモサンプルは、https://audio-mog.github.io.comで公開されている。
関連論文リスト
- AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation [24.349512234085644]
本稿では,マルチモーダル生成において十分に検討されていない,シンプルで軽量な生成変換器について述べる。
トランスは離散オーディオおよび視覚ベクトル量子化GAN空間で動作し、マスクを装飾的に訓練する。
実験の結果,本手法は最新の画像2audio 生成法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-05-23T14:13:16Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。