論文の概要: AudioLM: a Language Modeling Approach to Audio Generation
- arxiv url: http://arxiv.org/abs/2209.03143v2
- Date: Wed, 26 Jul 2023 03:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 16:34:24.884362
- Title: AudioLM: a Language Modeling Approach to Audio Generation
- Title(参考訳): AudioLM: 音声生成のための言語モデリングアプローチ
- Authors: Zal\'an Borsos, Rapha\"el Marinier, Damien Vincent, Eugene Kharitonov,
Olivier Pietquin, Matt Sharifi, Dominik Roblek, Olivier Teboul, David
Grangier, Marco Tagliasacchi, Neil Zeghidour
- Abstract要約: 本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
- 参考スコア(独自算出の注目度): 59.19364975706805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AudioLM, a framework for high-quality audio generation with
long-term consistency. AudioLM maps the input audio to a sequence of discrete
tokens and casts audio generation as a language modeling task in this
representation space. We show how existing audio tokenizers provide different
trade-offs between reconstruction quality and long-term structure, and we
propose a hybrid tokenization scheme to achieve both objectives. Namely, we
leverage the discretized activations of a masked language model pre-trained on
audio to capture long-term structure and the discrete codes produced by a
neural audio codec to achieve high-quality synthesis. By training on large
corpora of raw audio waveforms, AudioLM learns to generate natural and coherent
continuations given short prompts. When trained on speech, and without any
transcript or annotation, AudioLM generates syntactically and semantically
plausible speech continuations while also maintaining speaker identity and
prosody for unseen speakers. Furthermore, we demonstrate how our approach
extends beyond speech by generating coherent piano music continuations, despite
being trained without any symbolic representation of music.
- Abstract(参考訳): 本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
audiolmは入力オーディオを一連の離散トークンにマッピングし、この表現空間で言語モデリングタスクとしてオーディオ生成をキャストする。
本稿では,既存の音声トークン化装置が,再建品質と長期構造との間に異なるトレードオフを提供する方法を示す。
すなわち,音声に事前学習したマスク付き言語モデルの離散化アクティベーションを利用して,ニューラルオーディオコーデックが生成する長期構造と離散符号をキャプチャし,高品質な合成を実現する。
生音声波形の大規模なコーパスを訓練することにより、AudioLMは短いプロンプトを与えられた自然なコヒーレントな継続を生成することを学ぶ。
音声で訓練し、書き起こしや注釈なしでは、AudioLMは構文的かつ意味論的に妥当な音声継続を生成すると同時に、未知の話者に対する話者のアイデンティティと韻律を維持できる。
さらに,音楽の象徴的表現を伴わずに訓練されたにもかかわらず,コヒーレントなピアノ音楽継続を生成することによって,音声を超えて我々のアプローチが拡張されることを示す。
関連論文リスト
- Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model [11.62674351793]
複数の拡張を伴ってコンテキスト特徴を適応する新しい音声ベースのTSモデルを提案する。
Qformerの成功に触発されて,マルチモーダルなコンテキスト強化Qformerを提案する。
提案手法は,様々な状況のTSシナリオにおいて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T03:06:45Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - SoundStorm: Efficient Parallel Audio Generation [27.121920017380273]
本研究では,効率的な非自己回帰音声生成モデルSoundStormを提案する。
SoundStormはAudioLMのセマンティックトークンとして受け取られ、双方向の注意と信頼に基づく並列デコーディングに依存している。
我々は,高品質な自然な対話セグメントを合成することにより,より長いシーケンスに音声生成を拡張できることを実証する。
論文 参考訳(メタデータ) (2023-05-16T17:41:25Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。