論文の概要: In Silico Modeling of the RAMPHO Buffer: Dissociating Informational and Energetic Masking via Phonetic Entropy in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2605.22465v1
- Date: Thu, 21 May 2026 13:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.571581
- Title: In Silico Modeling of the RAMPHO Buffer: Dissociating Informational and Energetic Masking via Phonetic Entropy in Deep Neural Networks
- Title(参考訳): RAMPHOバッファのシリコモデル:ディープニューラルネットワークにおける音声エントロピーによる情報・エネルギーマスキングの解離
- Authors: Stefan Bleeck,
- Abstract要約: 自己教師型音響モデル(wav2vec 2.0)のフレーム・バイ・フレーム音声エントロピーを用いたRAMPHOバッファのインシリコシミュレーションを提案する。
意味的に無意味なインタラプタと位相非相関なインタラプタを対比することにより,エネルギー劣化の物理的ペナルティから情報的インタラプタの認知的ペナルティを解離することに成功した。
イントラクタのセマンティックペイロードを破壊することで、高いSNRでの情報マスキングから解放されるが、低SNRで時間的グランプングキューを根本的に劣化させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fundamental challenge of listening in multi-talker environments is a cognitive bottleneck, defined by the Ease of Language Understanding (ELU) model as a failure within the RAMPHO episodic buffer. Current deep neural networks for speech enhancement optimize purely for physical acoustics, failing to account for the cognitive penalty of informational masking. Here, we present an in silico simulation of the RAMPHO buffer using the frame-by-frame phonetic entropy of a self-supervised acoustic model (wav2vec 2.0). By contrasting a semantically intact distractor with a phase-decorrelated distractor (the Concentration Shield) across a signal-to-noise ratio (SNR) sweep, we successfully dissociate the cognitive penalty of informational distraction from the physical penalty of energetic decay. The simulation reveals a cognitive-acoustic Pareto optimization problem: destroying a distractor's semantic payload provides a release from informational masking at high SNRs, but fundamentally degrades temporal glimpsing cues at low SNRs.
- Abstract(参考訳): マルチトーカー環境におけるリスニングの根本的な課題は、Language Understanding (ELU)モデルによってRAMPHOエピソードバッファ内の障害として定義される認知的ボトルネックである。
現在の音声強調のためのディープニューラルネットワークは、物理的音響に対して純粋に最適化されており、情報マスキングの認知的ペナルティを考慮していない。
本稿では,自己教師型音響モデル(wav2vec 2.0)のフレーム・バイ・フレーム音声エントロピーを用いたRAMPHOバッファのインシリコシミュレーションを提案する。
意味的に無意味な気晴らし器と位相デコリックな気晴らし器(濃度シールド)を信号-雑音比(SNR)で比較することにより,エネルギー減衰の物理的ペナルティから情報的気晴らしの認知的ペナルティを解離することに成功した。
イントラクタのセマンティックペイロードを破壊することで、高SNRでの情報マスキングから解放されるが、低SNRでの時間的グランプングキューを根本的に低下させる。
関連論文リスト
- Neural Dynamics Self-Attention for Spiking Transformers [59.57278823240336]
TransformerアーキテクチャによるSNN(Spike Neural Networks)は、エネルギー効率とパフォーマンスのバランスをとるための、有望な経路を提供する。
既存のスパイキングトランスフォーマーは、(i)ニューラルネットワーク(ANN)と(ii)推論時の高メモリオーバーヘッドと比較して、大幅なパフォーマンスギャップがあるという2つの重要な課題に直面している。
本稿では、局所受容野を持つスパイキングニューロンを用いて、メモリ要求を減らしながら注意を計算するLRF-Dynを提案する。
論文 参考訳(メタデータ) (2026-03-09T12:23:37Z) - PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition [12.087823767638788]
音声感情認識(SER)は人間とコンピュータのインタラクションに広く利用されているが、高い計算コストはリソースに制約のあるエッジデバイスの実装を妨げる。
本稿では, スパイキングダイナミクスを用いたパラメータ効率のよいニューロモルフィック適応である, Prompt-Tuned Spiking Neural Networks (PTS-SNN) を提案する。
論文 参考訳(メタデータ) (2026-02-09T03:29:16Z) - A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation [19.384404014248762]
バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、複雑な音響シーンにおいてノイズ低減(NR)と空間的手がかり(SCP)の精度と高い計算要求の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
論文 参考訳(メタデータ) (2024-09-19T03:52:50Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - Multimodal Speech Enhancement Using Burst Propagation [1.8990839669542956]
本稿では,音声・視覚的音声強調のための新しいマルチモーダルソリューションMBURSTを提案する。
より生物学的に妥当な方法で、信用割当問題に対処するためのいくつかの基準を実装している。
Grid Corpus と CHiME3 ベースのデータセットを用いて行った実験では、MBURST が類似したマスク再構成をマルチモーダルバックプロパゲーションベースのベースラインに再現できることが示されている。
論文 参考訳(メタデータ) (2022-09-07T16:27:34Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。