論文の概要: Compression of Higher Order Ambisonics with Multichannel RVQGAN
- arxiv url: http://arxiv.org/abs/2411.12008v2
- Date: Thu, 05 Dec 2024 21:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 16:26:41.555246
- Title: Compression of Higher Order Ambisonics with Multichannel RVQGAN
- Title(参考訳): 多チャンネルRVQGANによる高次アンモニクスの圧縮
- Authors: Toni Hirvonen, Mahmoud Namazi,
- Abstract要約: RVQGANニューラルコーディング手法のマルチチャネル拡張を提案し,3次Ambisonics音声のデータ駆動圧縮を実現する。
ジェネレータと判別器モデルの入力層と出力層は、モデルを増大させることなく複数のチャネルを受け入れるように修正される。
また,入射再生における空間知覚を考慮した損失関数を提案し,単一チャネルモデルからの伝達学習を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A multichannel extension to the RVQGAN neural coding method is proposed, and realized for data-driven compression of third-order Ambisonics audio. The input- and output layers of the generator and discriminator models are modified to accept multiple (16) channels without increasing the model bitrate. We also propose a loss function for accounting for spatial perception in immersive reproduction, and transfer learning from single-channel models. Listening test results with 7.1.4 immersive playback show that the proposed extension is suitable for coding scene-based, 16-channel Ambisonics content with good quality at 16 kbps.
- Abstract(参考訳): RVQGANニューラルコーディング手法のマルチチャネル拡張を提案し,3次Ambisonics音声のデータ駆動圧縮を実現する。
ジェネレータおよび判別器モデルの入力層と出力層は、モデルビットレートを増大させることなく、複数の(16)チャネルを受け入れるように修正される。
また,入射再生における空間知覚を考慮した損失関数を提案し,単一チャネルモデルからの伝達学習を行う。
7.1.4の没入型再生による聴力試験の結果,提案手法は16kbpsの画質で,シーンベースで16チャンネルのアンビニクスコンテンツに適していることが示された。
関連論文リスト
- Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - HPC: Hierarchical Progressive Coding Framework for Volumetric Video [39.403294185116]
ニューラルレージアンスフィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションに対して大きな可能性を秘めている。
現在のNeRF圧縮は、ビデオ品質を調整できる柔軟性に欠けており、様々なネットワークやデバイス能力のための単一のモデル内である。
単一モデルを用いて可変性を実現する新しい階層型プログレッシブビデオ符号化フレームワークであるHPCを提案する。
論文 参考訳(メタデータ) (2024-07-12T06:34:24Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Efficient Adaptation of Neural Network Filter for Video Compression [10.769305738505071]
本稿では,ニューラルネットワークフィルタのための効率的なファインタニング手法を提案する。
微細チューニングは、エンコーダ側で行われ、ニューラルネットワークが符号化されている特定のコンテンツに適応する。
提案手法は従来のファインタニング手法よりもはるかに高速である。
論文 参考訳(メタデータ) (2020-07-28T14:24:28Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Neural Communication Systems with Bandwidth-limited Channel [9.332315420944836]
情報損失にもかかわらずメッセージを確実に送信することは情報理論の中核的な問題である。
本研究では,帯域幅制限チャネル(BWLC)を用いた符号化学習について検討する。
論文 参考訳(メタデータ) (2020-03-30T11:58:30Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。