論文の概要: Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation
- arxiv url: http://arxiv.org/abs/2505.13094v1
- Date: Mon, 19 May 2025 13:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.613775
- Title: Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation
- Title(参考訳): リアルタイム音声分離のための時間周波数ベースのアテンションキャッシュメモリモデル
- Authors: Guo Chen, Kai Li, Runxuan Yang, Xiaolin Hu,
- Abstract要約: Time-Frequency Attention Cache Memory (TFACM)モデルは、アテンションメカニズムとキャッシュメモリを通じて関係をキャプチャする。
実験の結果,TFACMはSOTA-GridNet-Causalモデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 20.168153319805665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing causal speech separation models often underperform compared to non-causal models due to difficulties in retaining historical information. To address this, we propose the Time-Frequency Attention Cache Memory (TFACM) model, which effectively captures spatio-temporal relationships through an attention mechanism and cache memory (CM) for historical information storage. In TFACM, an LSTM layer captures frequency-relative positions, while causal modeling is applied to the time dimension using local and global representations. The CM module stores past information, and the causal attention refinement (CAR) module further enhances time-based feature representations for finer granularity. Experimental results showed that TFACM achieveed comparable performance to the SOTA TF-GridNet-Causal model, with significantly lower complexity and fewer trainable parameters. For more details, visit the project page: https://cslikai.cn/TFACM/.
- Abstract(参考訳): 既存の因果的音声分離モデルは、歴史的情報の保持が困難であるため、非因果的モデルに比べて性能が劣ることが多い。
そこで本研究では,時間周波数アテンションキャッシュメモリ(TFACM)モデルを提案する。
TFACMでは、LSTM層は周波数相対的な位置を捕捉し、因果モデリングは局所的および大域的表現を用いて時間次元に適用する。
CMモジュールは過去の情報を格納し、因果注意改善(CAR)モジュールは、より微細な粒度の時間ベースの特徴表現をさらに強化する。
実験の結果,TFACMはSOTA TF-GridNet-Causalモデルに匹敵する性能を示した。
詳細はプロジェクトページを参照してください。
関連論文リスト
- Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Treating Brain-inspired Memories as Priors for Diffusion Model to Forecast Multivariate Time Series [16.315066774520524]
人間の記憶機構からインスピレーションを得て、時間的パターンをよりよく捉えます。
脳にインスパイアされた記憶はセマンティックメモリとエピソードメモリから構成される。
脳にインスパイアされたメモリ拡張拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-27T07:09:40Z) - SR-CIS: Self-Reflective Incremental System with Decoupled Memory and Reasoning [32.18013657468068]
自己回帰補充インクリメンタルシステム(SR-CIS)を提案する。
Complementary Inference Module (CIM)とComplementary Memory Module (CMM)で構成されている。
CMMはタスク固有の短期記憶(STM)領域と汎用長期記憶(LTM)領域から構成される。
トレーニング中に画像のテキスト記述を格納し、Scenario Replay Module (SRM) と組み合わせることで、SR-CISは限られたストレージ要件で安定したインクリメンタルメモリを実現する。
論文 参考訳(メタデータ) (2024-08-04T09:09:35Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - RSCaMa: Remote Sensing Image Change Captioning with State Space Model [29.945966783242337]
リモートセンシング画像変化キャプション(RSICC)は、言語における多時間リモートセンシング画像間の表面的変化を記述することを目的としている。
これは、時間的特徴の空間的および時間的モデリングに挑戦する。
本稿では,複数のCaMa層を通した空間空間空間モデリングを効率的に行う新しいRSCaMaモデルを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:31:00Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Enhancing Adaptive History Reserving by Spiking Convolutional Block
Attention Module in Recurrent Neural Networks [21.509659756334802]
スパイキングニューラルネットワーク(SNN)は、時系列における時間的パターンを処理するための1種類の効率的なモデルである。
本稿では、先進的なスパイキング・コンボリューション・アテンション・モジュール(SCBAM)コンポーネントを組み込んだ繰り返しスパイキング・ニューラルネットワーク(RSNN)モデルを開発する。
SCBAMを通して空間的・時間的チャネルの履歴情報を適応的に呼び出すことで、効率的なメモリ呼び出し履歴と冗長性排除の利点をもたらす。
論文 参考訳(メタデータ) (2024-01-08T08:05:34Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - GC-GRU-N for Traffic Prediction using Loop Detector Data [5.735035463793008]
シアトルのループ検出器のデータを15分以上収集し、その問題を時空で再現する。
モデルは、最速の推論時間と非常に近いパフォーマンスで第2位(トランスフォーマー)。
論文 参考訳(メタデータ) (2022-11-13T06:32:28Z) - Network Level Spatial Temporal Traffic State Forecasting with Hierarchical-Attention-LSTM (HierAttnLSTM) [0.0]
本稿では,オープンベンチマークにホストされたPeMS(Caltrans Performance Measurement System)から,多様なトラフィック状態データセットを活用する。
我々は,低レベルから高レベルLong Short-Term Memory (LSTM) ネットワーク間のセルおよび隠れ状態とアテンションプーリング機構を統合した。
構築された階層構造は、ネットワークレベルのトラフィック状態の空間的時間的相関をキャプチャして、異なる時間スケールにまたがる依存関係を考慮に入れられるように設計されている。
論文 参考訳(メタデータ) (2022-01-15T05:25:03Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。