論文の概要: SAO-Instruct: Free-form Audio Editing using Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2510.22795v1
- Date: Sun, 26 Oct 2025 18:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.994485
- Title: SAO-Instruct: Free-form Audio Editing using Natural Language Instructions
- Title(参考訳): SAOインストラクション:自然言語インストラクションを用いた自由形式のオーディオ編集
- Authors: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer,
- Abstract要約: 本稿では,任意の自然言語命令を用いて音声クリップを編集できるモデルSAO-Instructを紹介する。
本モデルでは,実機内での音声クリップや未表示の編集指示をうまく一般化する。
我々は,SAO-Instructが客観的な測定値の競合性能を達成し,主観的聴取実験において他の音声編集手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 34.39865893999257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
- Abstract(参考訳): 生成モデルは、短いテキスト記述から高忠実度オーディオを合成する上で大きな進歩を遂げた。
しかし、既存の音声を自然言語で編集する作業は、いまだに過小評価されている。
現在のアプローチでは、編集されたオーディオの完全な記述を必要とするか、柔軟性に欠ける事前に定義された編集命令に制約される。
本研究では,Stable Audio OpenをベースとしたモデルであるSAO-Instructを紹介した。
本稿では, Prompt-to-Prompt, DDPMインバージョン, 手動編集パイプラインを用いて, 音声編集三重奏曲(入力音声, 編集指示, 出力音声)のデータセットを作成する。
合成データに部分的に訓練を施したものの,本モデルでは実際の映像クリップや未知の編集命令によく適応する。
我々は,SAO-Instructが客観的な測定値の競合性能を達成し,主観的聴取実験において他の音声編集手法よりも優れていることを示す。
将来の研究を促進するため、コードとモデルの重みを公開します。
関連論文リスト
- Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-27T18:12:13Z) - Guiding Audio Editing with Audio Language Model [13.126858950459557]
本稿では,ステレオ音声編集のための新しいフレームワークであるSmartDJを紹介する。
高レベルの命令が与えられたら、SmartDJはそれを一連のアトミックな編集操作に分解する。
これらの操作はステレオオーディオを操作するために訓練された拡散モデルによって実行される。
論文 参考訳(メタデータ) (2025-09-25T21:43:45Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。