論文の概要: Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
- arxiv url: http://arxiv.org/abs/2509.23610v1
- Date: Sun, 28 Sep 2025 03:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.324769
- Title: Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
- Title(参考訳): 離散リップセマンティクスとマルチスケールグローバルローカルアテンションを用いた高能率音声-ビジュアル音声分離
- Authors: Kai Li, Kejun Gao, Xiaolin Hu,
- Abstract要約: 我々は,リップモーションを個別の音声対応セマンティックトークンに変換する軽量ビデオエンコーダDP-LipCoderを開発した。
音声分離のための軽量エンコーダデコーダセパレータを構築し,各層がグローバルローカルアテンション(GLA)ブロックを組み込む。
3つのベンチマークデータセットの実験では、Dolphinは現在の最先端(SOTA)モデルを分離品質で上回るだけでなく、優れた効率向上を実現した。
- 参考スコア(独自算出の注目度): 23.720485104224508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech separation (AVSS) methods leverage visual cues to extract target speech and have demonstrated strong separation quality in noisy acoustic environments. However, these methods usually involve a large number of parameters and require high computational cost, which is unacceptable in many applications where speech separation serves as only a preprocessing step for further speech processing. To address this issue, we propose an efficient AVSS method, named Dolphin. For visual feature extraction, we develop DP-LipCoder, a dual-path lightweight video encoder that transforms lip-motion into discrete audio-aligned semantic tokens. For audio separation, we construct a lightweight encoder-decoder separator, in which each layer incorporates a global-local attention (GLA) block to efficiently capture multi-scale dependencies. Experiments on three benchmark datasets showed that Dolphin not only surpassed the current state-of-the-art (SOTA) model in separation quality but also achieved remarkable improvements in efficiency: over 50% fewer parameters, more than 2.4x reduction in MACs, and over 6x faster GPU inference speed. These results indicate that Dolphin offers a practical and deployable solution for high-performance AVSS in real-world scenarios. Our code and demo page are publicly available at http://cslikai.cn/Dolphin/.
- Abstract(参考訳): 音声-視覚的音声分離法 (AVSS) は, ターゲット音声の抽出に視覚的手がかりを活用し, 雑音環境下での強い分離品質を示した。
しかし、これらの手法は、通常、多数のパラメータを伴い、高い計算コストを必要とするが、音声分離がさらなる音声処理のための前処理ステップとして機能する多くのアプリケーションでは受け入れられない。
この問題に対処するため,Dolphin という名前の効率的な AVSS 手法を提案する。
視覚的特徴抽出のためのDP-LipCoderは,リップモーションを個別の音声対応セマンティックトークンに変換するデュアルパス軽量ビデオエンコーダである。
音声分離のための軽量エンコーダデコーダセパレータを構築し、各層にグローバルローカルアテンション(GLA)ブロックが組み込まれ、マルチスケール依存関係を効率的にキャプチャする。
3つのベンチマークデータセットの実験では、Dolphinが現在の最先端(SOTA)モデルを分離品質で上回るだけでなく、パラメータの50%以上削減、MACの2.4倍以上の削減、GPU推論速度の6倍以上の高速化を実現した。
これらの結果は、Dolphinが現実のシナリオで高性能なAVSSを実現するための実用的でデプロイ可能なソリューションであることを示している。
私たちのコードとデモページはhttp://cslikai.cn/Dolphin/で公開されています。
関連論文リスト
- Learning to Upsample and Upmix Audio in the Latent Domain [14.777092647088756]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [7.864898315909104]
オーディオ・ビジュアル (AVS) と呼ばれる難題が出現し、シーン内のオブジェクトを音声化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。