論文の概要: LSZone: A Lightweight Spatial Information Modeling Architecture for Real-time In-car Multi-zone Speech Separation
- arxiv url: http://arxiv.org/abs/2510.10687v1
- Date: Sun, 12 Oct 2025 16:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.939984
- Title: LSZone: A Lightweight Spatial Information Modeling Architecture for Real-time In-car Multi-zone Speech Separation
- Title(参考訳): LSZone: リアルタイム車内マルチゾーン音声分離のための軽量空間情報モデリングアーキテクチャ
- Authors: Jun Chen, Shichao Hu, Jiuxin Lin, Wenjie Li, Zihan Zhang, Xingchen Li, JinJiang Liu, Longshuai Xiao, Chao Weng, Lei Xie, Zhiyong Wu,
- Abstract要約: 車内でのマルチゾーン音声分離は、車と車の間での相互作用において重要な役割を担っている。
これまでのSpatialNetは目覚ましい成果を上げてきたが、その高い計算コストは依然として車両におけるリアルタイムの応用を妨げる。
本稿では,車内マルチゾーン音声分離のための軽量空間情報モデリングアーキテクチャLSZoneを提案する。
- 参考スコア(独自算出の注目度): 48.822698652567944
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In-car multi-zone speech separation, which captures voices from different speech zones, plays a crucial role in human-vehicle interaction. Although previous SpatialNet has achieved notable results, its high computational cost still hinders real-time applications in vehicles. To this end, this paper proposes LSZone, a lightweight spatial information modeling architecture for real-time in-car multi-zone speech separation. We design a spatial information extraction-compression (SpaIEC) module that combines Mel spectrogram and Interaural Phase Difference (IPD) to reduce computational burden while maintaining performance. Additionally, to efficiently model spatial information, we introduce an extremely lightweight Conv-GRU crossband-narrowband processing (CNP) module. Experimental results demonstrate that LSZone, with a complexity of 0.56G MACs and a real-time factor (RTF) of 0.37, delivers impressive performance in complex noise and multi-speaker scenarios.
- Abstract(参考訳): 車内でのマルチゾーン音声分離は、異なる音声領域からの声を捉え、車と車間の相互作用において重要な役割を果たす。
以前のSpatialNetは目覚ましい成果を上げているが、その高い計算コストは依然として車両におけるリアルタイムの応用を妨げる。
そこで本研究では,車内マルチゾーン音声分離のための軽量空間情報モデリングアーキテクチャLSZoneを提案する。
我々は,Mel SpectrogramとIPDを組み合わせた空間情報抽出圧縮(SpaIEC)モジュールを設計し,性能を維持しながら計算負担を軽減する。
さらに、空間情報を効率的にモデル化するために、非常に軽量なConv-GRUクロスバンド・ナローバンド処理(CNP)モジュールを導入する。
実験の結果、LSZoneは複雑性0.56GのMACとリアルタイムファクタ(RTF)0.37で、複雑なノイズやマルチスピーカーシナリオで優れた性能を発揮することが示された。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation [21.959448032308615]
ハイパースペクトルイメージング(HSI)は、1ピクセル当たり数百の連続帯域にわたる詳細なスペクトルシグネチャをキャプチャする。
本稿では,HSI分析のための軽量アーキテクチャ用に設計された,新しいカリキュラム型マルチタスク自己教師型学習フレームワークを提案する。
CMTSSLは、マスク付き画像モデリングと、分離空間とスペクトルジグソーパズルの解法を統合している。
論文 参考訳(メタデータ) (2025-09-16T16:37:59Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - CDXLSTM: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory [7.926250735066206]
本稿では,強力なXLSTM機能拡張層であるコアコンポーネントを備えたCDXLSTMを提案する。
具体的には、意味的精度の深い機能のためにカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ、スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と空間応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:22:14Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。