論文の概要: AUDIT: Audio Editing by Following Instructions with Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2304.00830v2
- Date: Wed, 5 Apr 2023 12:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:52:30.139674
- Title: AUDIT: Audio Editing by Following Instructions with Latent Diffusion
Models
- Title(参考訳): AUDIT:潜時拡散モデルによる指示の追従による音声編集
- Authors: Yuancheng Wang, Zeqian Ju, Xu Tan, Lei He, Zhizheng Wu, Jiang Bian,
Sheng Zhao
- Abstract要約: AUDITは遅延拡散モデルに基づく命令誘導音声編集モデルである。
複数のオーディオ編集タスクに対する客観的および主観的メトリクスの両面で、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 40.13710449689338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio editing is applicable for various purposes, such as adding background
sound effects, replacing a musical instrument, and repairing damaged audio.
Recently, some diffusion-based methods achieved zero-shot audio editing by
using a diffusion and denoising process conditioned on the text description of
the output audio. However, these methods still have some problems: 1) they have
not been trained on editing tasks and cannot ensure good editing effects; 2)
they can erroneously modify audio segments that do not require editing; 3) they
need a complete description of the output audio, which is not always available
or necessary in practical scenarios. In this work, we propose AUDIT, an
instruction-guided audio editing model based on latent diffusion models.
Specifically, AUDIT has three main design features: 1) we construct triplet
training data (instruction, input audio, output audio) for different audio
editing tasks and train a diffusion model using instruction and input (to be
edited) audio as conditions and generating output (edited) audio; 2) it can
automatically learn to only modify segments that need to be edited by comparing
the difference between the input and output audio; 3) it only needs edit
instructions instead of full target audio descriptions as text input. AUDIT
achieves state-of-the-art results in both objective and subjective metrics for
several audio editing tasks (e.g., adding, dropping, replacement, inpainting,
super-resolution). Demo samples are available at https://audit-demo.github.io/.
- Abstract(参考訳): オーディオ編集は、背景の音響効果の追加、楽器の交換、損傷したオーディオの修復など、様々な目的に適用できる。
近年,出力音声のテキスト記述を条件とした拡散雑音処理により,ゼロショット音声編集を実現する手法が提案されている。
しかし、これらの方法にはまだいくつか問題がある。
1) 編集作業の訓練を受けておらず,良好な編集効果を確保できない。
2) 編集を必要としないオーディオセグメントを誤って変更することができる。
3) 出力音声の完全な記述が必要であり、実用シナリオでは必ずしも利用可能あるいは必要ではない。
本研究では,遅延拡散モデルに基づく命令誘導音声編集モデルであるAUDITを提案する。
具体的には、AUDITには3つの主要な設計特徴がある。
1)異なるオーディオ編集タスクのためのトリプルトトレーニングデータ(インストラクション、入力オーディオ、出力オーディオ)を構築し、命令および入力(編集対象)オーディオを条件として、出力(編集済み)オーディオを生成する拡散モデルを訓練する。
2) 入力音声と出力音声の違いを比較することにより,編集が必要なセグメントのみを自動で変更することを学ぶことができる。
3) テキスト入力として完全なターゲットオーディオ記述ではなく,編集命令のみを必要とする。
AUDITは、いくつかのオーディオ編集タスク(例えば、追加、ドロップ、置換、塗り替え、超解像)の客観的および主観的なメトリクスで最先端の結果を達成する。
デモサンプルはhttps://audit-demo.github.io/で入手できる。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion [23.89916376623198]
DDPMインバージョンと事前学習拡散モデルを用いた音声信号のゼロショット編集手法について検討する。
まず、ZEro-shot Text-based Audio (ZETA) 編集を画像領域から採用する。
第2のZEro-shot UnSupervized (ZEUS) 編集は、意味論的に意味のある編集方向を監督なしで発見するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-15T15:17:26Z) - SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。