論文の概要: Learning to Upsample and Upmix Audio in the Latent Domain
- arxiv url: http://arxiv.org/abs/2506.00681v1
- Date: Sat, 31 May 2025 19:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.206783
- Title: Learning to Upsample and Upmix Audio in the Latent Domain
- Title(参考訳): 潜伏領域におけるアップサンプリングとアップミックスの学習
- Authors: Dimitrios Bralios, Paris Smaragdis, Jonah Casebeer,
- Abstract要約: ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
- 参考スコア(独自算出の注目度): 13.82572699087732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio autoencoders create compact latent representations that preserve perceptually important information, serving as the foundation for both modern audio compression systems and generation approaches like next-token prediction and latent diffusion. Despite their prevalence, most audio processing operations, such as spatial and spectral up-sampling, still inefficiently operate on raw waveforms or spectral representations rather than directly on these compressed representations. We propose a framework that performs audio processing operations entirely within an autoencoder's latent space, eliminating the need to decode to raw audio formats. Our approach dramatically simplifies training by operating solely in the latent domain, with a latent L1 reconstruction term, augmented by a single latent adversarial discriminator. This contrasts sharply with raw-audio methods that typically require complex combinations of multi-scale losses and discriminators. Through experiments in bandwidth extension and mono-to-stereo up-mixing, we demonstrate computational efficiency gains of up to 100x while maintaining quality comparable to post-processing on raw audio. This work establishes a more efficient paradigm for audio processing pipelines that already incorporate autoencoders, enabling significantly faster and more resource-efficient workflows across various audio tasks.
- Abstract(参考訳): ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保存するコンパクトな潜時表現を作成し、現代のオーディオ圧縮システムの基礎と、次世代の予測や潜時拡散のような生成アプローチの両方の基盤となっている。
その頻度にもかかわらず、空間的およびスペクトル的なアップサンプリングのようなほとんどのオーディオ処理操作は、これらの圧縮された表現を直接ではなく、生の波形やスペクトル表現で非効率に動作する。
本稿では,自動エンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
提案手法は,潜在ドメインのみを動作させることでトレーニングを劇的に簡略化する。
これは、通常、多スケールの損失と識別器の複雑な組み合わせを必要とする生オーディオ法とは対照的である。
帯域拡張と単ステレオアップミキシングの実験により、生オーディオにおける後処理に匹敵する品質を維持しつつ、最大100倍の計算効率向上を示す。
この作業は、オートエンコーダを既に組み込んだオーディオ処理パイプラインのより効率的なパラダイムを確立し、様々なオーディオタスクをまたいだより高速でリソース効率の高いワークフローを実現する。
関連論文リスト
- DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding [58.29124051111574]
一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。
DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、4段階のカリキュラムで訓練されている。
MMSU、MMAU、MMARの実験では、DIFFA-2はDIFFAよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-30T16:44:23Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding [18.199202388702144]
ほとんどの周波数領域のニューラルコーデックは位相情報を無視するか、2つの独立した実数値チャネルとして符号化し、空間的忠実度を制限する。
これは、収束速度と訓練安定性を犠牲にして、敵対的差別者を導入する必要がある。
本研究では,解析量子化合成パイプライン全体にわたる大域的位相結合を保存する,終端から終端までの複雑なRVQ-VAEオーディオを紹介する。
論文 参考訳(メタデータ) (2026-01-24T16:34:07Z) - Towards Audio Token Compression in Large Audio Language Models [26.379508239446935]
大規模オーディオ言語モデル(LALM)は、様々なタスクにまたがる素晴らしいパフォーマンスを示している。
しかし、そのスケーラビリティは、注意の二次的な複雑さと、音声信号の高いトークンレートによって制限される。
本稿では,LALMのオーディオエンコーダが生成する音声トークン数を,LCMデコーダが消費する前に削減する手法について検討する。
論文 参考訳(メタデータ) (2025-11-26T02:00:38Z) - Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine [16.046905753937384]
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。
提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
論文 参考訳(メタデータ) (2025-07-17T00:32:07Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders [36.528216873338614]
本稿では,弱いエンコーダの混合物をAudioLLMフレームワークに組み込むことを提案する。
MoWEは、ベースエンコーダに比較的軽量なエンコーダのプールを補足し、音声入力に基づいて選択的にアクティベートし、モデルサイズを大幅に増大させることなく特徴抽出を強化する。
実験の結果,MoWEはマルチタスク性能を効果的に向上し,AudioLLMsの多様なオーディオタスクへの適用性を高めた。
論文 参考訳(メタデータ) (2024-09-10T16:46:18Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。