論文の概要: Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing
- arxiv url: http://arxiv.org/abs/2604.10708v1
- Date: Sun, 12 Apr 2026 16:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.184191
- Title: Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing
- Title(参考訳): Audio-Omni: マルチモーダル理解をVersatileオーディオ生成と編集に拡張する
- Authors: Zeyue Tian, Binxin Yang, Zhaoyang Liu, Jiexuan Zhang, Ruibin Yuan, Hubery Yin, Qifeng Chen, Chen Li, Jing Lv, Wei Xue, Yike Guo,
- Abstract要約: Audio-Omniは、一般的な音、音楽、音声ドメイン間で生成と編集を統合する最初のエンドツーエンドフレームワークである。
高次推論のための凍結型マルチモーダル大言語モデルと高忠実度合成のためのトレーニング可能な拡散変換器を併用する。
AudioEditは100万以上の精巧にキュレートされた編集ペアからなる大規模なデータセットである。
- 参考スコア(独自算出の注目度): 63.573256490583724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in multimodal models has spurred rapid advances in audio understanding, generation, and editing. However, these capabilities are typically addressed by specialized models, leaving the development of a truly unified framework that can seamlessly integrate all three tasks underexplored. While some pioneering works have explored unifying audio understanding and generation, they often remain confined to specific domains. To address this, we introduce Audio-Omni, the first end-to-end framework to unify generation and editing across general sound, music, and speech domains, with integrated multi-modal understanding capabilities. Our architecture synergizes a frozen Multimodal Large Language Model for high-level reasoning with a trainable Diffusion Transformer for high-fidelity synthesis. To overcome the critical data scarcity in audio editing, we construct AudioEdit, a new large-scale dataset comprising over one million meticulously curated editing pairs. Extensive experiments demonstrate that Audio-Omni achieves state-of-the-art performance across a suite of benchmarks, outperforming prior unified approaches while achieving performance on par with or superior to specialized expert models. Beyond its core capabilities, Audio-Omni exhibits remarkable inherited capabilities, including knowledge-augmented reasoning generation, in-context generation, and zero-shot cross-lingual control for audio generation, highlighting a promising direction toward universal generative audio intelligence. The code, model, and dataset will be publicly released on https://zeyuet.github.io/Audio-Omni.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、音声理解、生成、編集の急速な進歩をもたらした。
しかしながら、これらの機能は一般的に、専門的なモデルによって対処され、未調査の3つのタスクをシームレスに統合できる、真に統一されたフレームワークの開発が残されている。
先駆的な作品の中には、音声の理解と生成の統一を探求するものもあるが、それらは特定の領域に限られることが多い。
これを解決するために,一般音・音楽・音声領域における生成・編集を統合化するための,初のエンドツーエンドフレームワークであるAudio-Omniを紹介した。
高次推論のための凍結型マルチモーダル大言語モデルと高忠実度合成のためのトレーニング可能な拡散変換器を併用する。
音声編集において重要なデータ不足を克服するために,100万以上の精巧にキュレートされた編集ペアからなる大規模データセットであるAudioEditを構築した。
大規模な実験では、Audio-Omniは一連のベンチマークで最先端のパフォーマンスを達成し、従来の統一されたアプローチよりも優れ、専門的な専門家モデルと同等以上のパフォーマンスを実現している。
コア機能に加えて、Audio-Omniは、知識強化推論生成、コンテキスト内生成、音声生成のためのゼロショット言語間制御など、優れた継承機能を示し、普遍的な生成的オーディオインテリジェンスへの有望な方向性を強調している。
コード、モデル、データセットはhttps://zeyuet.github.io/Audio-Omni.comで公開される。
関連論文リスト
- AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Audio-FLAN: A Preliminary Release [34.97548432398912]
本稿では,音声,音楽,音の領域にまたがる80種類のタスクをカバーする大規模インストラクションチューニングデータセットであるAudio-FLANを紹介する。
Audio-FLANは、理解と生成の両方をシームレスに扱える統一オーディオ言語モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-02-23T14:24:15Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。