論文の概要: Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation
- arxiv url: http://arxiv.org/abs/2505.13094v1
- Date: Mon, 19 May 2025 13:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.613775
- Title: Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation
- Title(参考訳): リアルタイム音声分離のための時間周波数ベースのアテンションキャッシュメモリモデル
- Authors: Guo Chen, Kai Li, Runxuan Yang, Xiaolin Hu,
- Abstract要約: Time-Frequency Attention Cache Memory (TFACM)モデルは、アテンションメカニズムとキャッシュメモリを通じて関係をキャプチャする。
実験の結果,TFACMはSOTA-GridNet-Causalモデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 20.168153319805665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing causal speech separation models often underperform compared to non-causal models due to difficulties in retaining historical information. To address this, we propose the Time-Frequency Attention Cache Memory (TFACM) model, which effectively captures spatio-temporal relationships through an attention mechanism and cache memory (CM) for historical information storage. In TFACM, an LSTM layer captures frequency-relative positions, while causal modeling is applied to the time dimension using local and global representations. The CM module stores past information, and the causal attention refinement (CAR) module further enhances time-based feature representations for finer granularity. Experimental results showed that TFACM achieveed comparable performance to the SOTA TF-GridNet-Causal model, with significantly lower complexity and fewer trainable parameters. For more details, visit the project page: https://cslikai.cn/TFACM/.
- Abstract(参考訳): 既存の因果的音声分離モデルは、歴史的情報の保持が困難であるため、非因果的モデルに比べて性能が劣ることが多い。
そこで本研究では,時間周波数アテンションキャッシュメモリ(TFACM)モデルを提案する。
TFACMでは、LSTM層は周波数相対的な位置を捕捉し、因果モデリングは局所的および大域的表現を用いて時間次元に適用する。
CMモジュールは過去の情報を格納し、因果注意改善(CAR)モジュールは、より微細な粒度の時間ベースの特徴表現をさらに強化する。
実験の結果,TFACMはSOTA TF-GridNet-Causalモデルに匹敵する性能を示した。
詳細はプロジェクトページを参照してください。
関連論文リスト
- Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - RSCaMa: Remote Sensing Image Change Captioning with State Space Model [29.945966783242337]
リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:31:00Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Enhancing Adaptive History Reserving by Spiking Convolutional Block
Attention Module in Recurrent Neural Networks [21.509659756334802]
スパイキングニューラルネットワーク(SNN)は、時系列における時間的パターンを処理するための1種類の効率的なモデルである。
本稿では、先進的なスパイキング・コンボリューション・アテンション・モジュール(SCBAM)コンポーネントを組み込んだ繰り返しスパイキング・ニューラルネットワーク(RSNN)モデルを開発する。
SCBAMを通して空間的・時間的チャネルの履歴情報を適応的に呼び出すことで、効率的なメモリ呼び出し履歴と冗長性排除の利点をもたらす。
論文 参考訳(メタデータ) (2024-01-08T08:05:34Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - GC-GRU-N for Traffic Prediction using Loop Detector Data [5.735035463793008]
シアトルのループ検出器のデータを15分以上収集し、その問題を時空で再現する。
モデルは、最速の推論時間と非常に近いパフォーマンスで第2位(トランスフォーマー)。
論文 参考訳(メタデータ) (2022-11-13T06:32:28Z) - Network Level Spatial Temporal Traffic State Forecasting with Hierarchical-Attention-LSTM (HierAttnLSTM) [0.0]
本稿では,オープンベンチマークにホストされたPeMS(Caltrans Performance Measurement System)から,多様なトラフィック状態データセットを活用する。
我々は,低レベルから高レベルLong Short-Term Memory (LSTM) ネットワーク間のセルおよび隠れ状態とアテンションプーリング機構を統合した。
構築された階層構造は、ネットワークレベルのトラフィック状態の空間的時間的相関をキャプチャして、異なる時間スケールにまたがる依存関係を考慮に入れられるように設計されている。
論文 参考訳(メタデータ) (2022-01-15T05:25:03Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。