論文の概要: LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis
- arxiv url: http://arxiv.org/abs/2407.10468v1
- Date: Mon, 15 Jul 2024 06:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:11:00.008453
- Title: LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis
- Title(参考訳): LiteFocus:ロングオーディオ合成のための高速化拡散推論
- Authors: Zhenxiong Tan, Xinyin Ma, Gongfan Fang, Xinchao Wang,
- Abstract要約: 長い音声合成における音声潜伏拡散モデルの推論を強化する新しい手法を提案する。
我々は、同じ周波数の焦点とクロス周波数の補償として指定され、同じ周波数の制約下でのアテンション計算を縮小する、二重スパース形式を用いてアテンション計算を行う。
LiteFocusは80秒音声クリップの合成において拡散ベースTTAモデルによる推論時間を1.99倍に削減した。
- 参考スコア(独自算出の注目度): 53.412307759528076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent diffusion models have shown promising results in audio generation, making notable advancements over traditional methods. However, their performance, while impressive with short audio clips, faces challenges when extended to longer audio sequences. These challenges are due to model's self-attention mechanism and training predominantly on 10-second clips, which complicates the extension to longer audio without adaptation. In response to these issues, we introduce a novel approach, LiteFocus that enhances the inference of existing audio latent diffusion models in long audio synthesis. Observed the attention pattern in self-attention, we employ a dual sparse form for attention calculation, designated as same-frequency focus and cross-frequency compensation, which curtails the attention computation under same-frequency constraints, while enhancing audio quality through cross-frequency refillment. LiteFocus demonstrates substantial reduction on inference time with diffusion-based TTA model by 1.99x in synthesizing 80-second audio clips while also obtaining improved audio quality.
- Abstract(参考訳): 遅延拡散モデルは音声生成において有望な結果を示しており、従来の手法よりも顕著に進歩している。
しかし、彼らのパフォーマンスは短いオーディオクリップで印象的だが、長いオーディオシーケンスに拡張する際の課題に直面している。
これらの課題は、モデルの自己注意機構とトレーニングが主に10秒のクリップで行われているため、適応なしでより長いオーディオの拡張が複雑になる。
これらの問題に対応するために,我々はLiteFocusという新しい手法を導入し,長い音声合成において既存の音声潜在拡散モデルの推論を強化する。
自己注意の注意パターンを観察し、同周波数焦点とクロス周波数補償に指定された二重スパース形式を用いて、同周波数制約下での注意計算を削減し、クロス周波数補充による音質の向上を図る。
LiteFocusは、80秒のオーディオクリップの合成において、拡散ベースのTTAモデルによる推論時間を1.99倍に削減し、オーディオ品質も向上した。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。
拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。
拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文 参考訳(メタデータ) (2024-02-15T09:36:36Z) - AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis [42.203900183584665]
本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
論文 参考訳(メタデータ) (2023-12-18T04:14:38Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。
我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文 参考訳(メタデータ) (2023-06-29T12:39:58Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。