論文の概要: EGGCodec: A Robust Neural Encodec Framework for EGG Reconstruction and F0 Extraction
- arxiv url: http://arxiv.org/abs/2508.08924v1
- Date: Tue, 12 Aug 2025 13:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.4353
- Title: EGGCodec: A Robust Neural Encodec Framework for EGG Reconstruction and F0 Extraction
- Title(参考訳): EGGコーデック: EGG再構成とF0抽出のためのロバストニューラルネットワークエンコーデックフレームワーク
- Authors: Rui Feng, Yuang Chen, Yu Hu, Jun Du, Jiahong Yuan,
- Abstract要約: EGGCodecは、電子グロットグラフィ(EGG)信号再構成とF0抽出のために設計された、堅牢な神経エンコーデックフレームワークである。
本稿では,元のEGG信号と再構成されたEGG信号のニュアンス関係を捉えるために,マルチスケールの周波数領域損失関数を提案する。
EGGCodecは最先端のF0抽出方式を上回り、平均絶対誤差(MAE)を14.14Hzから13.69Hzに減らし、ボイシング判定誤差(VDE)を38.2%改善した。
- 参考スコア(独自算出の注目度): 48.921538847138315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This letter introduces EGGCodec, a robust neural Encodec framework engineered for electroglottography (EGG) signal reconstruction and F0 extraction. We propose a multi-scale frequency-domain loss function to capture the nuanced relationship between original and reconstructed EGG signals, complemented by a time-domain correlation loss to improve generalization and accuracy. Unlike conventional Encodec models that extract F0 directly from features, EGGCodec leverages reconstructed EGG signals, which more closely correspond to F0. By removing the conventional GAN discriminator, we streamline EGGCodec's training process without compromising efficiency, incurring only negligible performance degradation. Trained on a widely used EGG-inclusive dataset, extensive evaluations demonstrate that EGGCodec outperforms state-of-the-art F0 extraction schemes, reducing mean absolute error (MAE) from 14.14 Hz to 13.69 Hz, and improving voicing decision error (VDE) by 38.2\%. Moreover, extensive ablation experiments validate the contribution of each component of EGGCodec.
- Abstract(参考訳): 本稿では,電子グロットグラフィ(EGG)信号再構成とF0抽出のために開発された,堅牢なニューラルエンコーデックフレームワークEGGCodecを紹介する。
本稿では,時間領域相関損失を補完し,一般化と精度を向上させるため,元のEGG信号と再構成されたEGG信号のニュアンス関係を捕捉するマルチスケール周波数領域損失関数を提案する。
機能から直接F0を抽出する従来のEncodecモデルとは異なり、EGGCodecはF0とより密接に対応する再構成されたEGG信号を利用する。
従来のGAN識別器を除去することにより、EGGCodecのトレーニングプロセスを効率を損なうことなく効率化し、無視できる性能劣化しか生じない。
広く使われているEGG包括的データセットに基づいて、EGGCodecは最先端のF0抽出方式より優れ、平均絶対誤差(MAE)を14.14Hzから13.69Hzに低減し、VDE(voicing decision error)を38.2\%改善することを示した。
さらに,EGGCodecの各コンポーネントの寄与を広範囲にわたるアブレーション実験により検証した。
関連論文リスト
- ECG Latent Feature Extraction with Autoencoders for Downstream Prediction Tasks [2.2616169634370076]
心電図(Electrocardiogram、ECG)は、安価で広く用いられる心臓評価用ツールである。
標準化されたフォーマットと小さなファイルサイズにもかかわらず、ECG信号の複雑さと個人間変動は、ディープラーニングモデルでの使用を困難にしている。
本研究は,代表的ビート心電図から特徴生成手法を探索することにより,これらの課題に対処する。
本稿では,3つの新しい変分自動エンコーダ(VAE)-Stochastic Autoencoder (SAE), Annealed beta-VAE (A beta-VAE), Cyclical beta VAE (C beta-VAE)を導入し,それらの維持効果を比較した。
論文 参考訳(メタデータ) (2025-07-31T19:37:05Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Comparison of Autoencoder Encodings for ECG Representation in Downstream Prediction Tasks [2.2616169634370076]
自動エンコーダ(SAE)、Annealed beta-VAE(Abeta-VAE)、Cbeta-VAE(Cbeta-VAE)の3種類の新しい変分自動エンコーダ(VAE)を導入した。
アベタVAEは、信号ノイズのレベルである平均絶対誤差(MAE)を15.7プラス3.2マイクロボルトに減らした。
以上の結果から,これらのVAE符号化はECGデータの簡易化だけでなく,限られたラベル付き学習データを用いた文脈での深層学習の実践的解決にも有効であることが示唆された。
論文 参考訳(メタデータ) (2024-10-03T19:30:05Z) - ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文 参考訳(メタデータ) (2023-12-29T01:37:27Z) - ECG Artifact Removal from Single-Channel Surface EMG Using Fully
Convolutional Networks [9.468136300919062]
本研究は,完全畳み込みネットワーク(FCN)を用いた単一チャネルsEMG信号からECGアーチファクトを除去する新しい復号法を提案する。
提案手法は,SEMGデノナイズのためのニューラルネットワークのデノエーズオートエンコーダ構造と強力な非線形マッピング機能を採用する。
論文 参考訳(メタデータ) (2022-10-24T14:12:11Z) - Orthogonal Features Based EEG Signals Denoising Using Fractional and
Compressed One-Dimensional CNN AutoEncoder [3.8580784887142774]
本稿では脳波(EEG)信号の分数的1次元畳み込みニューラルネットワーク(CNN)オートエンコーダを提案する。
脳波信号は、主に筋肉アーチファクト(MA)によって、記録過程中にしばしばノイズによって汚染される。
論文 参考訳(メタデータ) (2021-04-16T13:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。