論文の概要: Compression of Higher Order Ambisonics with Multichannel RVQGAN
- arxiv url: http://arxiv.org/abs/2411.12008v1
- Date: Mon, 18 Nov 2024 19:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:19.436001
- Title: Compression of Higher Order Ambisonics with Multichannel RVQGAN
- Title(参考訳): 多チャンネルRVQGANによる高次アンモニクスの圧縮
- Authors: Toni Hirvonen, Mahmoud Namazi,
- Abstract要約: RVQGANニューラルコーディング法のマルチチャネル拡張を提案する。
提案した拡張は、16kbit/sで高品質な16チャンネルのアンビニクスコンテンツを符号化するのに適している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A multichannel extension to the RVQGAN neural coding method is proposed, and realized for data-driven compression of third-order Ambisonics audio. The input- and output layers of the generator and discriminator models are modified to accept multiple (16) channels without increasing the model bitrate. We also propose a loss function for accounting for spatial perception in immersive reproduction, and transfer learning from single-channel models. Listening test results with 7.1.4 immersive playback show that the proposed extension is suitable for coding scene-based, 16-channel Ambisonics content with good quality at 16 kbit/s.
- Abstract(参考訳): RVQGANニューラルコーディング手法のマルチチャネル拡張を提案し,3次Ambisonics音声のデータ駆動圧縮を実現する。
ジェネレータおよび判別器モデルの入力層と出力層は、モデルビットレートを増大させることなく、複数の(16)チャネルを受け入れるように修正される。
また,入射再生における空間知覚を考慮した損失関数を提案し,単一チャネルモデルからの伝達学習を行う。
7.1.4の没入型再生による聴力試験の結果,提案手法は16kbit/sで高品質な16チャンネルのアンビニクスコンテンツに適していることが示された。
関連論文リスト
- Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - HPC: Hierarchical Progressive Coding Framework for Volumetric Video [39.403294185116]
ニューラルレージアンスフィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションに対して大きな可能性を秘めている。
現在のNeRF圧縮は、ビデオ品質を調整できる柔軟性に欠けており、様々なネットワークやデバイス能力のための単一のモデル内である。
単一モデルを用いて可変性を実現する新しい階層型プログレッシブビデオ符号化フレームワークであるHPCを提案する。
論文 参考訳(メタデータ) (2024-07-12T06:34:24Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Neural Communication Systems with Bandwidth-limited Channel [9.332315420944836]
情報損失にもかかわらずメッセージを確実に送信することは情報理論の中核的な問題である。
本研究では,帯域幅制限チャネル(BWLC)を用いた符号化学習について検討する。
論文 参考訳(メタデータ) (2020-03-30T11:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。