論文の概要: Virtual Consistency for Audio Editing
- arxiv url: http://arxiv.org/abs/2509.17219v1
- Date: Sun, 21 Sep 2025 19:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.17102
- Title: Virtual Consistency for Audio Editing
- Title(参考訳): 音声編集のための仮想一貫性
- Authors: Matthieu Cervera, Francesco Paissan, Mirco Ravanelli, Cem Subakan,
- Abstract要約: 本稿では,拡散モデルのサンプリングプロセスを適用することで,インバージョンを回避した仮想一貫性に基づく音声編集システムを提案する。
私たちのパイプラインはモデルに依存しないため、微調整やアーキテクチャの変更は不要です。
- 参考スコア(独自算出の注目度): 29.848819764769058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-form, text-based audio editing remains a persistent challenge, despite progress in inversion-based neural methods. Current approaches rely on slow inversion procedures, limiting their practicality. We present a virtual-consistency based audio editing system that bypasses inversion by adapting the sampling process of diffusion models. Our pipeline is model-agnostic, requiring no fine-tuning or architectural changes, and achieves substantial speed-ups over recent neural editing baselines. Crucially, it achieves this efficiency without compromising quality, as demonstrated by quantitative benchmarks and a user study involving 16 participants.
- Abstract(参考訳): インバージョンベースのニューラルメソッドの進歩にもかかわらず、フリーフォームのテキストベースのオーディオ編集は依然として永続的な課題である。
現在のアプローチは、その実用性を制限する、遅い反転手順に依存している。
本稿では,拡散モデルのサンプリングプロセスを適用することで,インバージョンを回避した仮想一貫性に基づく音声編集システムを提案する。
私たちのパイプラインはモデルに依存しないため、微調整やアーキテクチャの変更は不要です。
重要なことに、定量的ベンチマークや16人の参加者によるユーザスタディで示されているように、品質を損なうことなく、この効率を達成する。
関連論文リスト
- RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。
実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文 参考訳(メタデータ) (2025-09-17T14:13:40Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - DeltaEdit: Enhancing Sequential Editing in Large Language Models by Controlling Superimposed Noise [1.2697731449512988]
逐次的知識編集技術は,大規模言語モデルの知識を低コストで継続的に更新することを目的としている。
既存の逐次編集手法は、長期編集後の編集成功率の大幅な低下に悩まされている。
デルタ編集(DeltaEdit)は,編集間の干渉を軽減し,偏差を緩和する手法である。
実験結果から、DeltaEditは、既存の方法よりも、成功率と一般化能力の維持を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-12T07:11:26Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。