論文の概要: BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation
- arxiv url: http://arxiv.org/abs/2506.09487v1
- Date: Wed, 11 Jun 2025 07:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.724009
- Title: BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation
- Title(参考訳): BemaGANv2:長期音声生成のためのGANベースのヴォコーダのチュートリアルおよび比較調査
- Authors: Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon,
- Abstract要約: 本稿では,BemaGANv2のチュートリアルスタイルのサーベイと実装ガイドについて述べる。
BemaGANv2は、高忠実で長期間のオーディオ生成のために設計された高度なGANベースのボコーダである。
- 参考スコア(独自算出の注目度): 5.716013795091872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a tutorial-style survey and implementation guide of BemaGANv2, an advanced GAN-based vocoder designed for high-fidelity and long-term audio generation. Built upon the original BemaGAN architecture, BemaGANv2 incorporates major architectural innovations by replacing traditional ResBlocks in the generator with the Anti-aliased Multi-Periodicity composition (AMP) module, which internally applies the Snake activation function to better model periodic structures. In the discriminator framework, we integrate the Multi-Envelope Discriminator (MED), a novel architecture we originally proposed, to extract rich temporal envelope features crucial for periodicity detection. Coupled with the Multi-Resolution Discriminator (MRD), this combination enables more accurate modeling of long-range dependencies in audio. We systematically evaluate various discriminator configurations, including MSD + MED, MSD + MRD, and MPD + MED + MRD, using objective metrics (FAD, SSIM, PLCC, MCD) and subjective evaluations (MOS, SMOS). This paper also provides a comprehensive tutorial on the model architecture, training methodology, and implementation to promote reproducibility. The code and pre-trained models are available at: https://github.com/dinhoitt/BemaGANv2.
- Abstract(参考訳): 本稿では,高忠実度・長期オーディオ生成のための高度なGANベースのボコーダであるBemaGANv2のチュートリアル型サーベイと実装ガイドを提案する。
オリジナルのBemaGANアーキテクチャをベースに構築されたBemaGANv2は、ジェネレータ内の従来のResBlockをアンチエイリアス化された多周期合成(AMP)モジュールに置き換え、内部的にSnakeアクティベーション関数を適用して周期構造をより良くモデル化することで、主要なアーキテクチャ革新を取り入れている。
判別器のフレームワークでは,従来提案してきた新しいアーキテクチャであるMulti-Envelope Discriminator (MED)を統合し,周期性検出に不可欠な豊富な時間エンベロープの特徴を抽出する。
この組み合わせはMRD(Multi-Resolution Discriminator)と組み合わせて、オーディオにおける長距離依存関係のより正確なモデリングを可能にする。
客観的指標 (FAD, SSIM, PLCC, MCD) と主観的評価 (MOS, SMOS) を用いてMSD + MED, MSD + MRD, MPD + MED + MRDなどの識別器構成を体系的に評価した。
本稿では、再現性を促進するためのモデルアーキテクチャ、トレーニング方法論、実装に関する包括的なチュートリアルも提供する。
コードと事前訓練済みのモデルは、https://github.com/dinhoitt/BemaGANv2.comで入手できる。
関連論文リスト
- HiRes-FusedMIM: A High-Resolution RGB-DSM Pre-trained Model for Building-Level Remote Sensing Applications [2.048226951354646]
HiRes-FusedMIMは、高解像度のRGBおよびDSMデータに含まれる豊富な情報を活用するために特別に設計された、新しい事前訓練モデルである。
分類,セマンティックセグメンテーション,インスタンスセグメンテーションなど,さまざまな下流タスクに対して,HiRes-FusedMIMの総合評価を行った。
論文 参考訳(メタデータ) (2025-03-24T10:49:55Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
我々のモデルは、英語で約2.5%の競争力のある単語誤り率(WER)を達成し、スペイン語で既存のアプローチを上回ります。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。