論文の概要: Guiding Audio Editing with Audio Language Model
- arxiv url: http://arxiv.org/abs/2509.21625v1
- Date: Thu, 25 Sep 2025 21:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.036642
- Title: Guiding Audio Editing with Audio Language Model
- Title(参考訳): 音声言語モデルによる音声編集の指導
- Authors: Zitong Lan, Yiduo Hao, Mingmin Zhao,
- Abstract要約: 本稿では,ステレオ音声編集のための新しいフレームワークであるSmartDJを紹介する。
高レベルの命令が与えられたら、SmartDJはそれを一連のアトミックな編集操作に分解する。
これらの操作はステレオオーディオを操作するために訓練された拡散モデルによって実行される。
- 参考スコア(独自算出の注目度): 13.126858950459557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio editing plays a central role in VR/AR immersion, virtual conferencing, sound design, and other interactive media. However, recent generative audio editing models depend on template-like instruction formats and are restricted to mono-channel audio. These models fail to deal with declarative audio editing, where the user declares what the desired outcome should be, while leaving the details of editing operations to the system. We introduce SmartDJ, a novel framework for stereo audio editing that combines the reasoning capability of audio language models with the generative power of latent diffusion. Given a high-level instruction, SmartDJ decomposes it into a sequence of atomic edit operations, such as adding, removing, or spatially relocating events. These operations are then executed by a diffusion model trained to manipulate stereo audio. To support this, we design a data synthesis pipeline that produces paired examples of high-level instructions, atomic edit operations, and audios before and after each edit operation. Experiments demonstrate that SmartDJ achieves superior perceptual quality, spatial realism, and semantic alignment compared to prior audio editing methods. Demos are available at https://zitonglan.github.io/project/smartdj/smartdj.html.
- Abstract(参考訳): オーディオ編集は、VR/ARの没入、仮想会議、サウンドデザイン、その他のインタラクティブメディアにおいて中心的な役割を果たす。
しかし、最近の生成オーディオ編集モデルはテンプレートのような命令形式に依存しており、単チャンネルオーディオに限定されている。
これらのモデルは宣言的なオーディオ編集には対応せず、ユーザが望ましい結果を宣言し、操作の詳細はシステムに任せる。
ステレオ音声編集のための新しいフレームワークであるSmartDJを導入し,音声モデルの推論能力と潜時拡散の生成能力を組み合わせた。
高レベルの命令を与えられたSmartDJは、イベントの追加、削除、空間的移動などのアトミックな編集操作のシーケンスに分解する。
これらの操作はステレオオーディオを操作するために訓練された拡散モデルによって実行される。
これを支援するために、各編集操作前後に高レベルの命令、アトミックな編集操作、オーディオのペア例を生成するデータ合成パイプラインを設計する。
実験により,SmartDJは従来の音声編集法に比べて知覚品質,空間リアリズム,セマンティックアライメントに優れることが示された。
デモはhttps://zitonglan.github.io/project/smartdj/smartdj.htmlで公開されている。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AUDIT: Audio Editing by Following Instructions with Latent Diffusion
Models [40.13710449689338]
AUDITは遅延拡散モデルに基づく命令誘導音声編集モデルである。
複数のオーディオ編集タスクに対する客観的および主観的メトリクスの両面で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-03T09:15:51Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。