論文の概要: A2SB: Audio-to-Audio Schrodinger Bridges
- arxiv url: http://arxiv.org/abs/2501.11311v1
- Date: Mon, 20 Jan 2025 07:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:37.040612
- Title: A2SB: Audio-to-Audio Schrodinger Bridges
- Title(参考訳): A2SB:オーディオからオーディオへのシュロディンガーブリッジ
- Authors: Zhifeng Kong, Kevin J Shih, Weili Nie, Arash Vahdat, Sang-gil Lee, Joao Felipe Santos, Ante Jukic, Rafael Valle, Bryan Catanzaro,
- Abstract要約: 44.1kHzでハイレゾ音楽の再生モデルを提案する。
我々のモデルであるAudio-to-Audio Schrodinger Bridges (A2SB) は帯域拡張と塗装を両立できる。
- 参考スコア(独自算出の注目度): 52.637226461175096
- License:
- Abstract: Audio in the real world may be perturbed due to numerous factors, causing the audio quality to be degraded. The following work presents an audio restoration model tailored for high-res music at 44.1kHz. Our model, Audio-to-Audio Schrodinger Bridges (A2SB), is capable of both bandwidth extension (predicting high-frequency components) and inpainting (re-generating missing segments). Critically, A2SB is end-to-end without need of a vocoder to predict waveform outputs, able to restore hour-long audio inputs, and trained on permissively licensed music data. A2SB is capable of achieving state-of-the-art bandwidth extension and inpainting quality on several out-of-distribution music test sets. Our demo website is https: //research.nvidia.com/labs/adlr/A2SB/.
- Abstract(参考訳): 現実世界のオーディオは、様々な要因により混乱し、音質が劣化する可能性がある。
以下の作品では、44.1kHzでハイレゾ音楽用に調整されたオーディオ復元モデルを提示している。
我々のモデルであるA2SB(Audio-to-Audio Schrodinger Bridges)は、帯域拡張(高周波成分の予測)とインペイント(欠落セグメントの再生成)の両方が可能な。
重要な点として、A2SBは波形出力を予測するボコーダを必要とせずにエンドツーエンドであり、1時間のオーディオ入力を復元し、パーミッシブにライセンスされた音楽データで訓練することができる。
A2SBは、いくつかのアウト・オブ・ディストリビューション音楽テストセットに対して、最先端の帯域幅拡張と品質向上を実現することができる。
私たちのデモウェブサイトはhttps: //research.nvidia.com/labs/adlr/A2SB/です。
関連論文リスト
- Music2Latent2: Audio Compression with Summary Embeddings and Autoregressive Decoding [0.0]
音声信号を要約埋め込みの集合に圧縮する新しいオーディオオートエンコーダであるMusic2Latent2を紹介する。
ローカルオーディオ機能を順序付きシーケンスにエンコードする従来の方法とは異なり、Music2Latent2は音声信号を要約埋め込みのセットに圧縮する。
任意のオーディオ長を扱うために、Music2Latent2では、因果マスキングを備えた2つの連続したオーディオチャンクでトレーニングされた自動回帰一貫性モデルを採用している。
論文 参考訳(メタデータ) (2025-01-29T11:34:19Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Fast Timing-Conditioned Latent Audio Diffusion [8.774733281142021]
安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。
これは2つの公開テキスト・トゥ・ミュージック・アンド・オーディオ・ベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオ・サウンドで音楽を生成することができる。
論文 参考訳(メタデータ) (2024-02-07T13:23:25Z) - AudioSR: Versatile Audio Super-resolution at Scale [32.36683443201372]
本稿では,多目的オーディオの高解像度化が可能な拡散型生成モデルであるAudioSRを提案する。
具体的には、AudioSRは2kHzから16kHzの範囲内の任意の入力オーディオ信号を24kHzの高解像度オーディオ信号にアップサンプリングすることができる。
論文 参考訳(メタデータ) (2023-09-13T21:00:09Z) - Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:54:29Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。