論文の概要: Adapting Neural Audio Codecs to EEG
- arxiv url: http://arxiv.org/abs/2511.23142v1
- Date: Fri, 28 Nov 2025 12:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.892478
- Title: Adapting Neural Audio Codecs to EEG
- Title(参考訳): 脳波にニューラルオーディオコーデックを適用する
- Authors: Ard Kastrati, Luca Lanzendörfer, Riccardo Rigoni, John Staib Matilla, Roger Wattenhofer,
- Abstract要約: 脳波圧縮の出発点として,事前学習したニューラルオーディオコーデックが有効であることを示す。
DAC-MCは、アテンションベースのチャネル間アグリゲーションとチャネル固有のデコードを備えたマルチチャネル拡張である。
TUH異常データセットとてんかんデータセットの評価は、適応コーデックが臨床関連情報を保存していることを示している。
- 参考スコア(独自算出の注目度): 27.20793132729464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: EEG and audio are inherently distinct modalities, differing in sampling rate, channel structure, and scale. Yet, we show that pretrained neural audio codecs can serve as effective starting points for EEG compression, provided that the data are preprocessed to be suitable to the codec's input constraints. Using DAC, a state-of-the-art neural audio codec as our base, we demonstrate that raw EEG can be mapped into the codec's stride-based framing, enabling direct reuse of the audio-pretrained encoder-decoder. Even without modification, this setup yields stable EEG reconstructions, and fine-tuning on EEG data further improves fidelity and generalization compared to training from scratch. We systematically explore compression-quality trade-offs by varying residual codebook depth, codebook (vocabulary) size, and input sampling rate. To capture spatial dependencies across electrodes, we propose DAC-MC, a multi-channel extension with attention-based cross-channel aggregation and channel-specific decoding, while retaining the audio-pretrained initialization. Evaluations on the TUH Abnormal and Epilepsy datasets show that the adapted codecs preserve clinically relevant information, as reflected in spectrogram-based reconstruction loss and downstream classification accuracy.
- Abstract(参考訳): EEGとオーディオは本質的に異なるモダリティであり、サンプリングレート、チャネル構造、スケールが異なる。
しかし,プレトレーニングされたニューラルオーディオコーデックは,コーデックの入力制約に適合するように事前処理されていることを条件として,脳波圧縮の効果的な出発点として機能することを示す。
我々の基盤として最先端のニューラルオーディオコーデックであるDACを用いて、生の脳波をコーデックのストライドベースのフレーミングにマッピングし、オーディオに制限されたエンコーダデコーダを直接再利用できることを実証する。
修正なしにも、この設定は安定した脳波再構成をもたらし、脳波データの微調整により、スクラッチからのトレーニングよりも忠実さと一般化がさらに向上する。
圧縮品質のトレードオフを、残余のコードブック深さ、コードブックサイズ、入力サンプリングレートによって体系的に検討する。
電極間の空間的依存性を捉えるために,注意に基づくチャネル間アグリゲーションとチャネル固有のデコードを備えたマルチチャネル拡張であるDAC-MCを提案する。
TUH異常データセットとてんかんデータセットの評価では、適応コーデックは、スペクトログラムによる再構成損失や下流分類精度に反映されるように、臨床関連情報を保存している。
関連論文リスト
- Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders [13.596509137642103]
このような方法でオーディオオートエンコーダを訓練した後、従来の訓練よりも粗い表現構造で知覚的に健全な情報をキャプチャできることが示される。
このような知覚的階層は、音楽のピッチにおける副次的な推定や、音楽聴取に対する脳波応答の予測という文脈において、潜時拡散復号化を改善することを示す。
論文 参考訳(メタデータ) (2025-11-07T15:44:12Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - Neural Spectral Band Generation for Audio Coding [14.466825532313795]
本稿では、高周波帯域を符号化するためのディープニューラルネットワーク(DNN)に基づく生成手法を提案する。
提案手法は,サイド情報の少ないHE-AAC-v1よりも知覚品質が高いことを示す。
論文 参考訳(メタデータ) (2025-06-07T09:35:08Z) - Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。