論文の概要: MARS: Audio Generation via Multi-Channel Autoregression on Spectrograms
- arxiv url: http://arxiv.org/abs/2509.26007v1
- Date: Tue, 30 Sep 2025 09:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.839097
- Title: MARS: Audio Generation via Multi-Channel Autoregression on Spectrograms
- Title(参考訳): MARS:マルチチャネルオートレグレッションによるスペクトログラムのオーディオ生成
- Authors: Eleonora Ristori, Luca Bindini, Paolo Frasconi,
- Abstract要約: スペクトログラムをマルチチャネル画像として扱うフレームワークであるMARS(Multi-channel AutoRegression on Spectrograms)を紹介する。
共有トークン化器はスケールをまたいだ一貫した離散表現を提供し、トランスフォーマーベースのオートレグレッシャが分光図を効率的に精査することを可能にする。
- 参考スコア(独自算出の注目度): 0.8258451067861929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on audio generation has progressively shifted from waveform-based approaches to spectrogram-based methods, which more naturally capture harmonic and temporal structures. At the same time, advances in image synthesis have shown that autoregression across scales, rather than tokens, improves coherence and detail. Building on these ideas, we introduce MARS (Multi-channel AutoRegression on Spectrograms), a framework that treats spectrograms as multi-channel images and employs channel multiplexing (CMX), a reshaping technique that lowers height and width without discarding information. A shared tokenizer provides consistent discrete representations across scales, enabling a transformer-based autoregressor to refine spectrograms from coarse to fine resolutions efficiently. Experiments on a large-scale dataset demonstrate that MARS performs comparably or better than state-of-the-art baselines across multiple evaluation metrics, establishing an efficient and scalable paradigm for high-fidelity audio generation.
- Abstract(参考訳): 音声生成の研究は、波形に基づくアプローチからスペクトル法へと徐々に移行し、より自然に高調波や時間構造を捉えるようになった。
同時に、画像合成の進歩により、トークンよりもスケールを越えた自己回帰がコヒーレンスと詳細を改善することが示されている。
これらのアイデアに基づいて、分光図をマルチチャネル画像として扱うフレームワークであるMARS(Multi-channel AutoRegression on Spectrograms)を導入し、情報を捨てることなく高さと幅を下げるリフォーミング技術であるチャネル多重化(CMX)を採用した。
共有トークン化器はスケールをまたいだ一貫した離散表現を提供し、変換器ベースの自己回帰器は、スペクトルを粗いものから細かいものへと効率的に洗練することができる。
大規模なデータセットの実験では、MARSは複数の評価指標をまたいだ最先端のベースラインよりも多種多種多様なパフォーマンスを示し、高忠実なオーディオ生成のための効率的でスケーラブルなパラダイムを確立している。
関連論文リスト
- Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - Better Pseudo-labeling with Multi-ASR Fusion and Error Correction by SpeechLLM [12.005825075325234]
本稿では,テキストおよび音声に基づく大規模言語モデルによる後処理を用いたマルチASRプロンプト駆動フレームワークを提案する。
従来の方法と比較して,転写精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-06-05T12:35:53Z) - SinBasis Networks: Matrix-Equivalent Feature Extraction for Wave-Like Optical Spectrograms [8.37266944852829]
フラットな入力上での線形変換として、畳み込みと注意を再解釈する統一的行列等価フレームワークを提案する。
これらの変換をCNN、ViT、Capsuleアーキテクチャに埋め込むことで、Sin-Basis Networksは周期的なモチーフに対する感度を高めることができる。
論文 参考訳(メタデータ) (2025-05-06T16:16:42Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - A Mel Spectrogram Enhancement Paradigm Based on CWT in Speech Synthesis [3.9940425551415597]
連続ウェーブレット変換(CWT)に基づくメルスペクトル拡張パラダイムを提案する。
このパラダイムはより詳細なウェーブレット・スペクトログラムを導入しており、これは後処理ネットワークがデコーダによって出力されるメル・スペクトログラムを入力として取るのと同様である。
実験結果から,メルスペクトル拡張パラダイムを用いて合成した音声は,ベースラインモデルと比較してそれぞれ0.14と0.09の改善がみられた。
論文 参考訳(メタデータ) (2024-06-18T00:34:44Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。