論文の概要: Token-based Audio Inpainting via Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2507.08333v2
- Date: Mon, 14 Jul 2025 11:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 12:29:47.613403
- Title: Token-based Audio Inpainting via Discrete Diffusion
- Title(参考訳): 離散拡散によるトークン音声の聴取
- Authors: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani,
- Abstract要約: 本稿では,トークン化音声表現を演算する離散拡散モデルに基づく新しい塗装手法を提案する。
提案手法は離散潜在空間において生成過程を直接モデル化し,音声の安定的,意味的コヒーレントな再構築を可能にする。
- 参考スコア(独自算出の注目度): 14.23046540809056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio inpainting refers to the task of reconstructing missing segments in corrupted audio recordings. While prior approaches-including waveform and spectrogram-based diffusion models-have shown promising results for short gaps, they often degrade in quality when gaps exceed 100 milliseconds (ms). In this work, we introduce a novel inpainting method based on discrete diffusion modeling, which operates over tokenized audio representations produced by a pre-trained audio tokenizer. Our approach models the generative process directly in the discrete latent space, enabling stable and semantically coherent reconstruction of missing audio. We evaluate the method on the MusicNet dataset using both objective and perceptual metrics across gap durations up to 300 ms. We further evaluated our approach on the MTG dataset, extending the gap duration to 500 ms. Experimental results demonstrate that our method achieves competitive or superior performance compared to existing baselines, particularly for longer gaps, offering a robust solution for restoring degraded musical recordings. Audio examples of our proposed method can be found at https://iftach21.github.io/
- Abstract(参考訳): オーディオ・インペインティング(Audio Inpainting)とは、劣化したオーディオ・レコードの欠落したセグメントを再構築する作業である。
従来のアプローチでは、波形やスペクトログラムに基づく拡散モデルが短いギャップに対して有望な結果を示したが、ギャップが100ミリ秒(ms)を超えると、しばしば品質が低下する。
本研究では,事前学習した音声トークン化器が生成するトークン化音声表現を演算する離散拡散モデルに基づく新しいインペイント手法を提案する。
提案手法は離散潜在空間において生成過程を直接モデル化し,音声の安定的,意味的コヒーレントな再構築を可能にする。
我々は、最大300msの間隔で客観的および知覚的計測値を用いて、MusicNetデータセット上の手法の評価を行い、また、MTGデータセットに対するアプローチを更に評価し、ギャップ期間を500msまで延長し、既存のベースライン、特に長いギャップにおいて、既存のベースラインと比較して、競争力や優れたパフォーマンスを達成し、劣化した音楽録音を復元するための堅牢なソリューションを提供することを示す。
提案手法のオーディオ例はhttps://iftach21.github.io/にある。
関連論文リスト
- Similarity-Guided Diffusion for Long-Gap Music Inpainting [9.785849733424554]
拡散に基づく推論と類似性探索を組み合わせたハイブリッド手法であるSimDPS(Simisity-Guided Diffusion Posterior Smpling)を提案する。
ピアノ音楽の2-s間隔の塗装に対する主観評価は,SimDPS法が知覚的妥当性を高めることを示唆している。
論文 参考訳(メタデータ) (2025-09-19T18:33:51Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction [63.26850431270348]
離散トークンを使わずに因果言語モデル(LM)を用いた音声生成について検討する。
トークンの拡散を利用して、次の連続値トークンの連続分布をモデル化する。
本稿では,マスク付き予測を因果的LMフレームワークに組み込んだ,マスク付き次世代予測タスクを提案する。
論文 参考訳(メタデータ) (2025-07-14T00:14:54Z) - ZeroSep: Separate Anything in Audio with Zero Training [42.19808124670159]
機械が複雑な音響環境を理解するためには、音源分離が基本である。
現在の教師付きディープラーニングアプローチは、強力ではあるが、広範なタスク固有のラベル付きデータの必要性によって制限されている。
事前学習したテキスト誘導音声拡散モデルがこれらの制限を克服できるかどうかを検討する。
ゼロショット音源分離は、事前訓練されたテキスト誘導音声拡散モデルにより純粋に達成できる。
論文 参考訳(メタデータ) (2025-05-29T16:31:45Z) - Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - Diffusion State-Guided Projected Gradient for Inverse Problems [82.24625224110099]
逆問題に対する拡散状態ガイド型射影勾配(DiffStateGrad)を提案する。
DiffStateGrad は拡散過程の中間状態の低ランク近似である部分空間に測定勾配を投影する。
DiffStateGradは、測定手順のステップサイズとノイズの選択によって拡散モデルのロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-04T14:26:54Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Unsupervised vocal dereverberation with diffusion-based generative
models [12.713895991763867]
そこで本稿では,学習にデータペアを必要とすることなく,一般的な音楽用人工残響を除去するための教師なし手法を提案する。
提案手法は,従来の有声弁別評価基準より優れており,客観的および知覚的評価が優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:43:01Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。