論文の概要: Token-based Audio Inpainting via Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2507.08333v3
- Date: Wed, 08 Oct 2025 09:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.065683
- Title: Token-based Audio Inpainting via Discrete Diffusion
- Title(参考訳): 離散拡散によるトークン音声の聴取
- Authors: Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani,
- Abstract要約: 従来の拡散法では、欠落する領域が大きくなると性能が低下する。
事前学習した音声トークン化器からトークン化音楽表現に離散拡散を適用した最初の手法を提案する。
さらに、スムーズな時間的ダイナミクスを強制する微分に基づく正規化損失と、スパンベースの吸収遷移という2つのトレーニング手法を取り入れた。
- 参考スコア(独自算出の注目度): 10.067461704094727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio inpainting seeks to restore missing segments in degraded recordings. Previous diffusion-based methods exhibit impaired performance when the missing region is large. We introduce the first approach that applies discrete diffusion over tokenized music representations from a pre-trained audio tokenizer, enabling stable and semantically coherent restoration of long gaps. Our method further incorporates two training approaches: a derivative-based regularization loss that enforces smooth temporal dynamics, and a span-based absorbing transition that provides structured corruption during diffusion. Experiments on the MusicNet and MAESTRO datasets with gaps up to 750 ms show that our approach consistently outperforms strong baselines across range of gap lengths, for gaps of 150 ms and above. This work advances musical audio restoration and introduces new directions for discrete diffusion model training. Audio examples of our proposed method can be found at https://iftach21.github.io/.
- Abstract(参考訳): オーディオ・インペインティングは、劣化した録音の欠落した部分の復元を試みている。
従来の拡散法では、欠落する領域が大きくなると性能が低下する。
本稿では,事前学習した音声トークン化器からトークン化音楽表現への離散拡散を適用し,長いギャップの安定的,意味的コヒーレントな復元を可能にする最初のアプローチを提案する。
さらに、スムーズな時間的ダイナミクスを強制する導関数に基づく正規化損失と、拡散中に構造的腐敗をもたらすスパンベースの吸収遷移という2つのトレーニング手法を取り入れた。
最大750msのギャップを持つMusicNetとMAESTROデータセットの実験は、我々のアプローチが150ms以上のギャップに対して、ギャップ長の範囲にわたって強いベースラインを一貫して上回っていることを示している。
本研究は,音楽再生を推進し,離散拡散モデルトレーニングのための新たな方向を導入する。
提案手法のオーディオ例はhttps://iftach21.github.io/で見ることができる。
関連論文リスト
- Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction [63.26850431270348]
離散トークンを使わずに因果言語モデル(LM)を用いた音声生成について検討する。
トークンの拡散を利用して、次の連続値トークンの連続分布をモデル化する。
本稿では,マスク付き予測を因果的LMフレームワークに組み込んだ,マスク付き次世代予測タスクを提案する。
論文 参考訳(メタデータ) (2025-07-14T00:14:54Z) - Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。