論文の概要: RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing
- arxiv url: http://arxiv.org/abs/2509.14003v1
- Date: Wed, 17 Sep 2025 14:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.863235
- Title: RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing
- Title(参考訳): RFM編集:テキスト誘導オーディオ編集のための整流フローマッチング
- Authors: Liting Gao, Yi Yuan, Yaru Chen, Yuelan Cheng, Zhenbo Li, Juan Wen, Shubin Zhang, Wenwu Wang,
- Abstract要約: そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。
実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
- 参考スコア(独自算出の注目度): 21.479883699581308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown remarkable progress in text-to-audio generation. However, text-guided audio editing remains in its early stages. This task focuses on modifying the target content within an audio signal while preserving the rest, thus demanding precise localization and faithful editing according to the text prompt. Existing training-based and zero-shot methods that rely on full-caption or costly optimization often struggle with complex editing or lack practicality. In this work, we propose a novel end-to-end efficient rectified flow matching-based diffusion framework for audio editing, and construct a dataset featuring overlapping multi-event audio to support training and benchmarking in complex scenarios. Experiments show that our model achieves faithful semantic alignment without requiring auxiliary captions or masks, while maintaining competitive editing quality across metrics.
- Abstract(参考訳): 拡散モデルは、テキスト・オーディオ生成において顕著な進歩を見せている。
しかし、テキストガイドによるオーディオ編集はまだ初期段階にある。
本課題は,音声信号中のターゲット内容の修正と残響の保存に焦点を合わせ,テキストのプロンプトに応じて正確な局所化と忠実な編集を要求する。
既存のトレーニングベースおよびゼロショット方式は、フルキャプションやコストのかかる最適化に依存しており、複雑な編集や実用性の欠如に悩まされることが多い。
本研究では,音声編集のための新しいエンドツーエンドの整流型拡散フレームワークを提案し,複雑なシナリオにおけるトレーニングとベンチマークを支援するために,重なり合うマルチイベント音声を特徴とするデータセットを構築した。
実験により,提案モデルは補助的なキャプションやマスクを必要とせず,かつ,メトリクス間の競合的な編集品質を維持しながら,忠実なセマンティックアライメントを実現することが示された。
関連論文リスト
- Audio-Guided Visual Editing with Complex Multi-Modal Prompts [5.694921736486254]
本稿では,複数のテキストと音声のプロンプトで複雑な編集タスクを,トレーニングを必要とせずに処理できる新しいビジュアル編集フレームワークを提案する。
トレーニング済みのマルチモーダルエンコーダと強力なゼロショット機能を活用し,多様なオーディオをビジュアル編集タスクに統合する。
本フレームワークは,テキストのみのアプローチが失敗する音声からの豊富な情報を組み込むことで,複雑な編集シナリオの処理に長けている。
論文 参考訳(メタデータ) (2025-08-28T03:00:30Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)により、ユーザーは元の録音を変更することなく、対応するテキストを直接修正して音声を編集できる。
現在のTSE技術は、学習中に生成された音声と編集領域における参照の相違を最小限に抑えることに焦点を当てていることが多い。
従来のtextitFluentEditor モデルである textittextbfFluentEditor2 をベースとした新しい流速音声編集手法を提案する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。