Fugu-MT 論文翻訳(概要): Gull: A Generative Multifunctional Audio Codec

論文の概要: Gull: A Generative Multifunctional Audio Codec

arxiv url: http://arxiv.org/abs/2404.04947v2
Date: Fri, 7 Jun 2024 07:03:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 19:28:06.747054
Title: Gull: A Generative Multifunctional Audio Codec
Title（参考訳）: Gull:多機能オーディオコーデック
Authors: Yi Luo, Jianwei Yu, Hangting Chen, Rongzhi Gu, Chao Weng,
Abstract要約: Gullは汎用的なニューラルオーディオ圧縮および圧縮モデルである。鍵となるコンポーネントは、ユニバーサルサンプルレートモデリング、ゲインシェイプ表現、残留ベクトル量子化モジュール、弾性デコーダネットワークである。
参考スコア（独自算出の注目度）: 39.414833825453655
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce Gull, a generative multifunctional audio codec. Gull is a general purpose neural audio compression and decompression model which can be applied to a wide range of tasks and applications such as real-time communication, audio super-resolution, and codec language models. The key components of Gull include (1) universal-sample-rate modeling via subband modeling schemes motivated by recent progress in audio source separation, (2) gain-shape representations motivated by traditional audio codecs, (3) improved residual vector quantization modules, (4) elastic decoder network that enables user-defined model size and complexity during inference time, (5) built-in ability for audio super-resolution without the increase of bitrate. We compare Gull with existing traditional and neural audio codecs and show that Gull is able to achieve on par or better performance across various sample rates, bitrates and model complexities in both subjective and objective evaluation metrics.
Abstract（参考訳）: 生成型多機能オーディオコーデックGullを紹介する。 Gullは汎用的なニューラルオーディオ圧縮・圧縮モデルであり、リアルタイム通信、オーディオ超解像、コーデック言語モデルといった幅広いタスクやアプリケーションに適用することができる。 Gull の主な構成要素は,(1) 音源分離の最近の進展を動機としたサブバンドモデリングによるユニバーサルサンプリングレートモデリング,(2) 従来のオーディオコーデックによるゲイン形状表現,(3) 改良された残留ベクトル量子化モジュール,(4) 推論時間におけるユーザ定義モデルサイズと複雑性を実現する弾性デコーダネットワーク,(5) ビットレートの増加を伴わないオーディオ超解像のビルトイン機能などである。 Gullは従来の音声コーデックとニューラルオーディオのコーデックを比較し、さまざまなサンプルレート、ビットレート、モデルの複雑さを主観的および客観的評価の指標で同等以上のパフォーマンスを達成することができることを示す。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。 TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文参考訳（メタデータ） (2025-08-22T20:45:03Z)
NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference [19.201753265782685]
大規模言語モデル(LLM)は、音声コーデックを利用して音声をトークンに識別することで、かなり高度なオーディオ処理を行う。既存のオーディオコーデックは高いフレームレートで動作し、特に自己回帰モデルにおいてトレーニングと推論が遅くなる。我々は,12.5フレーム/秒(FPS)で高品質な圧縮を実現する,最先端オーディオであるNanoCodecを紹介する。
論文参考訳（メタデータ） (2025-08-07T20:20:32Z)
One Quantizer is Enough: Toward a Lightweight Audio Codec [10.903708510237875]
SQCodecは、単一量子化器を利用して既存のアプローチの限界に対処する軽量なニューラルオーディオである。 SQCodecはTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを調査している。実験により、SQCodecのオーディオ品質はマルチ量子化器に匹敵するベースラインを実現し、シングル量子化器の設計は適応性を向上した。
論文参考訳（メタデータ） (2025-04-07T11:34:39Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文参考訳（メタデータ） (2024-10-18T12:24:05Z)
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文参考訳（メタデータ） (2024-09-18T16:39:10Z)
SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。また,SemantiCodecはすべての評価音声コーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文参考訳（メタデータ） (2024-04-30T22:51:36Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文参考訳（メタデータ） (2023-05-12T00:55:41Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
RAVE: A variational autoencoder for fast and high-quality neural audio synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T09:07:30Z)
A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文参考訳（メタデータ） (2021-08-09T14:03:07Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。